非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)并不表示兩者之間存在真正的沖突??蛻舨皇腔谒麄兊臄?shù)據(jù)結(jié)構(gòu)選擇,而是在使用他們的應用程序中選擇:關(guān)系數(shù)據(jù)庫用于結(jié)構(gòu)化數(shù)據(jù),大多數(shù)其他類型的應用程序用于非結(jié)構(gòu)化數(shù)據(jù)。
然而,結(jié)構(gòu)化數(shù)據(jù)分析的難易程度與非結(jié)構(gòu)化數(shù)據(jù)的分析難度之間的關(guān)系日益緊張。結(jié)構(gòu)化數(shù)據(jù)分析是一個成熟的流程和技術(shù)。非結(jié)構(gòu)化數(shù)據(jù)分析是一個新興行業(yè),在研發(fā)方面需投入大量的資金,但這不是一項成熟的技術(shù)。企業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)問題決定了他們是否應該投資于非結(jié)構(gòu)化數(shù)據(jù)的分析,以及將這二者結(jié)合是否成為一種更好的商業(yè)智能?
什么是結(jié)構(gòu)化數(shù)據(jù)?
結(jié)構(gòu)化數(shù)據(jù)通常駐留在關(guān)系數(shù)據(jù)庫(RDBMS)中。其字段存儲長度顯示數(shù)據(jù)電話號碼,社會安全號碼或郵政編碼。甚至像名稱這樣的可變長度的文本字符串也包含在記錄中,這使得它很容易搜索。只要數(shù)據(jù)是在RDBMS結(jié)構(gòu)內(nèi)創(chuàng)建的,數(shù)據(jù)就可以是人工或機器生成的。這種格式是搜索與人類產(chǎn)生的查詢和使用的數(shù)據(jù)和字段名稱類型的算法,如字母或數(shù)字、貨幣、日期。
包含結(jié)構(gòu)化數(shù)據(jù)的普通關(guān)系數(shù)據(jù)庫應用程序包括航空預訂系統(tǒng)、庫存控制、銷售事務和ATM活動。結(jié)構(gòu)化查詢語言(SQL)允許在關(guān)系數(shù)據(jù)庫中查詢這種類型的結(jié)構(gòu)化數(shù)據(jù)。
一些關(guān)系數(shù)據(jù)庫確實存儲或指向非結(jié)構(gòu)化數(shù)據(jù),例如客戶關(guān)系管理(CRM)應用程序。由于備忘錄字段不會將自己放到傳統(tǒng)的數(shù)據(jù)庫查詢中,因此其集成可能不理想。盡管如此,大部分客戶關(guān)系管理(CRM)數(shù)據(jù)都是結(jié)構(gòu)化的。
什么是非結(jié)構(gòu)化數(shù)據(jù)?
非結(jié)構(gòu)化數(shù)據(jù)本質(zhì)上是結(jié)構(gòu)化數(shù)據(jù)之外的一切數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)具有內(nèi)部結(jié)構(gòu),但不通過預定義的數(shù)據(jù)模型或模式進行結(jié)構(gòu)化。它可能是文本的或非文本的,也可能是人為的或機器生成的。它也可以存儲在像NoSQL這樣的非關(guān)系數(shù)據(jù)庫中。
典型的人為非結(jié)構(gòu)化數(shù)據(jù)包括:
•文本文件:文字處理、電子表格、演示文稿、電子郵件、日志。
•電子郵件:由于其元數(shù)據(jù),電子郵件具有一些內(nèi)部結(jié)構(gòu),人們有時將其稱之為半結(jié)構(gòu)化。但是,其消息字段是非結(jié)構(gòu)化的,傳統(tǒng)的分析工具無法解析它。
•社交媒體:來自Facebook、Twitter和LinkedIn的數(shù)據(jù)。
•網(wǎng)站:YouTube、Instagram、照片分享網(wǎng)站。
•移動數(shù)據(jù):短信、地點。
•通信:聊天、即時消息、電話錄音、協(xié)作軟件。
•媒體:MP3、數(shù)碼照片、音頻文件、視頻文件。
•業(yè)務應用程序:MS Office文檔、生產(chǎn)力應用程序。
典型的機器生成的非結(jié)構(gòu)化數(shù)據(jù)包括:
•衛(wèi)星圖像:天氣數(shù)據(jù)、地形、軍事活動。
•科學數(shù)據(jù):石油和天然氣勘探、空間勘探、地震圖像、大氣數(shù)據(jù)。
•數(shù)字監(jiān)控:監(jiān)控照片和視頻。
•傳感器數(shù)據(jù):交通、天氣、海洋傳感器。
最具包容性的大數(shù)據(jù)分析可以使用結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù):有什么區(qū)別?
除了存儲在關(guān)系數(shù)據(jù)庫和存儲在一個關(guān)系數(shù)據(jù)庫之外的明顯區(qū)別之外,最大的區(qū)別在于分析結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的便利性。針對結(jié)構(gòu)化數(shù)據(jù)存在成熟的分析工具,但用于挖掘非結(jié)構(gòu)化數(shù)據(jù)的分析工具正處于萌芽和發(fā)展階段。
用戶可以通過文本非結(jié)構(gòu)化數(shù)據(jù)運行簡單的內(nèi)容搜索。但是,缺乏有序的內(nèi)部結(jié)構(gòu)使得傳統(tǒng)數(shù)據(jù)挖掘工具的目標失敗,企業(yè)從富有價值的數(shù)據(jù)源(如媒體、網(wǎng)絡、博客、客戶交互,以及社交媒體數(shù)據(jù))獲得的價值很小。即使非結(jié)構(gòu)化數(shù)據(jù)分析工具在市場上出現(xiàn),但沒有任何一個供應商或工具集是明確的贏家。許多客戶不愿意投資于具有不確定發(fā)展路線圖的分析工具。
除此之外,非結(jié)構(gòu)化數(shù)據(jù)比結(jié)構(gòu)化數(shù)據(jù)要多得多。非結(jié)構(gòu)化數(shù)據(jù)占企業(yè)數(shù)據(jù)的80%以上,并且以每年55%和65%的速度增長。如果沒有工具來分析這些海量數(shù)據(jù),組織會在商業(yè)智能表上留下大量有價值的數(shù)據(jù)。
傳統(tǒng)上,結(jié)構(gòu)化數(shù)據(jù)對大數(shù)據(jù)應用程序來說更容易消化,但如今的數(shù)據(jù)分析解決方案正在這方面取得重大進展。
半結(jié)構(gòu)化數(shù)據(jù)如何適用于結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)
半結(jié)構(gòu)化數(shù)據(jù)維護用于識別單獨數(shù)據(jù)元素的內(nèi)部標記和標簽,從而實現(xiàn)信息分組和層次結(jié)構(gòu)。文檔和數(shù)據(jù)庫都可以是半結(jié)構(gòu)化的。這種類型的數(shù)據(jù)只代表結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)的5%-10%,但具有關(guān)鍵的業(yè)務用例。
電子郵件是半結(jié)構(gòu)化數(shù)據(jù)類型的一個非常常見的例子。而更高級的分析工具對于線程跟蹤,近似重復數(shù)據(jù)刪除和概念搜索是必需的。電子郵件的本地元數(shù)據(jù)可以實現(xiàn)分類和關(guān)鍵字搜索,無需任何其他工具。
電子郵件是一個巨大的用例,但大多數(shù)半結(jié)構(gòu)化的開發(fā)中心都在緩解數(shù)據(jù)傳輸問題。與基于Web的數(shù)據(jù)共享和傳輸一樣,共享傳感器數(shù)據(jù)也是一個不斷增長的用例:電子數(shù)據(jù)交換(EDI),許多社交媒體平臺,文檔標記語言和NoSQL數(shù)據(jù)庫。
半結(jié)構(gòu)化數(shù)據(jù)的例子
•標記語言XML這是一種半結(jié)構(gòu)化的文檔語言。XML是一組定義人機可讀格式的文檔編碼規(guī)則(雖然說XML是人類可讀的,但并沒有帶來太大的好處,因為人員閱讀XML文檔都會讓他們更加耗費時間。)其價值在于它的標簽驅(qū)動結(jié)構(gòu)非常靈活,編碼人員可以使其適應在Web上普及數(shù)據(jù)結(jié)構(gòu)、存儲和傳輸。
•開放標準JSON(JavaScript Object Notation)是另一種半結(jié)構(gòu)化數(shù)據(jù)交換格式。Java隱含在名稱中,但其他類似C語言的編程語言可以識別它。其結(jié)構(gòu)由名稱/值對(或?qū)ο?、散列表?和有序值列表(或數(shù)組、序列、列表)組成。由于結(jié)構(gòu)在各種語言之間可以互換,JSON擅長在Web應用程序和服務器之間傳輸數(shù)據(jù)。
•NoSQL半結(jié)構(gòu)化數(shù)據(jù)也是許多NoSQL(不僅是SQL)數(shù)據(jù)庫的重要組成部分。NoSQL數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫不同,因為它們不會將組織(模式)與數(shù)據(jù)分開。這使得NoSQL成為存儲不容易適應記錄和表格格式的信息(比如長度不同的文本)的更好選擇。它還允許數(shù)據(jù)庫之間進行更容易的數(shù)據(jù)交換。一些較新的NoSQL數(shù)據(jù)庫(如MongoDB和Couchbase)也通過將它們以JSON格式本地存儲來包含半結(jié)構(gòu)化文檔。
在大數(shù)據(jù)環(huán)境中,NoSQL不需要管理員將運營和分析數(shù)據(jù)庫分離為單獨的部署。NoSQL是可操作的數(shù)據(jù)庫,并托管用于商業(yè)智能的本地分析工具。在Hadoop環(huán)境中,NoSQL數(shù)據(jù)庫攝取并管理傳入數(shù)據(jù)并提供分析結(jié)果。
這些數(shù)據(jù)庫在大數(shù)據(jù)基礎架構(gòu)和LinkedIn等實時Web應用程序中很常見。在LinkedIn網(wǎng)站上,數(shù)以億計的商業(yè)用戶可以自由分享職位、地點、技能等等。LinkedIn以半結(jié)構(gòu)化格式捕捉海量數(shù)據(jù)。當求職用戶創(chuàng)建搜索時,LinkedIn會將查詢與其大規(guī)模的半結(jié)構(gòu)化數(shù)據(jù)存儲相匹配,將數(shù)據(jù)交叉引用到招聘趨勢中,并與求職者分享結(jié)果推薦。 Salesforce等高級LinkedIn服務中的銷售和營銷查詢也采用相同的流程。亞馬遜還將讀者推薦建立在半結(jié)構(gòu)化數(shù)據(jù)庫上。
結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù):下一代工具是游戲規(guī)則改變者
可以使用新工具分析非結(jié)構(gòu)化數(shù)據(jù),特別是給定用例參數(shù)。大多數(shù)這些工具都基于機器學習。結(jié)構(gòu)化數(shù)據(jù)分析也可以使用機器學習,但海量數(shù)據(jù)和許多不同類型的非結(jié)構(gòu)化數(shù)據(jù)都需要它。
幾年前,使用關(guān)鍵字和關(guān)鍵短語的分析人員可以搜索非結(jié)構(gòu)化數(shù)據(jù),并對數(shù)據(jù)涉及的內(nèi)容有一個清晰的概念。電子發(fā)現(xiàn)是這種方法的主要例子。但是,非結(jié)構(gòu)化數(shù)據(jù)的增長速度非??欤灾劣谟脩舨粌H需要采用計算工作的分析,而且還要自動從他們的活動和用戶決策中學習。自然語言處理(NLP)、模式感知和分類以及文本挖掘算法都是常見的例子,文檔相關(guān)性分析、情感分析和過濾器驅(qū)動的網(wǎng)頁收集也是常見的例子。
使用機器學習智能進行非結(jié)構(gòu)化數(shù)據(jù)分析可使組織:
•分析數(shù)字通信的合規(guī)性。違反合規(guī)性將會使企業(yè)損失數(shù)百萬美元的費用、訴訟和業(yè)務損失。模式識別和電子郵件線程分析軟件可以搜索海量的電子郵件和聊天數(shù)據(jù),以防潛在的不合規(guī)情況。最近的一個例子就是大眾汽車公司可能通過使用分析來監(jiān)控可疑消息的通信,從而避免了巨額罰款和聲譽損失。
•跟蹤社交媒體中的大量客戶對話。文本分析和情緒分析可讓分析師檢查營銷活動的積極和負面結(jié)果,甚至識別在線威脅。這種級別的分析是一種更為復雜的簡單關(guān)鍵字的搜索,它只能報告基本知識,例如海報在新廣告系列中提及企業(yè)名稱的頻率。新的分析還包括以下場景:提及的是積極還是負面?海報是否有更好的宣傳作用?用戶對行政公告的反應是什么?例如汽車行業(yè)大量參與社交媒體的分析,因為購車者往往會轉(zhuǎn)向其他海報來衡量他們的購車體驗。分析師使用文本挖掘和情感分析相結(jié)合的方式來跟蹤Twitter和Facebook上與自動相關(guān)的用戶帖子。
•獲得新的營銷情報。機器學習分析工具可快速處理大量文檔以分析客戶行為。一家重要的雜志發(fā)行商可以將文本挖掘應用到數(shù)以萬計的文章中,并通過主要分論題的流行度來分析每個單獨的出版物情況。然后,他們將分析擴展到所有內(nèi)容屬性,以查看哪些整體主題受到客戶的主要關(guān)注。該分析將所有出版物的數(shù)十萬條內(nèi)容進行分析,并以分段形式交叉引用熱門主題的結(jié)果。其結(jié)果是豐富的內(nèi)容,哪些話題對不同的顧客最感興趣,哪些營銷信息與他們產(chǎn)生了最強烈的共鳴。
在電子數(shù)據(jù)展示中,數(shù)據(jù)科學家使用關(guān)鍵字搜索非結(jié)構(gòu)化數(shù)據(jù)并獲得有關(guān)數(shù)據(jù)的合理構(gòu)想。
無論企業(yè)的業(yè)務具體是什么,其目標都是挖掘業(yè)務價值,無論數(shù)據(jù)是結(jié)構(gòu)化的還是非結(jié)構(gòu)化的。這兩種類型的數(shù)據(jù)都可能具有很高的價值,而較新的工具可以匯總、查詢、分析和利用所有數(shù)據(jù)類型,以便在整個企業(yè)數(shù)據(jù)范圍內(nèi)獲得更加深入的業(yè)務洞察力。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權(quán)利。