這是一個(gè)大數(shù)據(jù)的時(shí)代。我們被海量的信息所淹沒(méi),而企業(yè)發(fā)現(xiàn)想要實(shí)現(xiàn)管理并從中提取價(jià)值已經(jīng)變成了一個(gè)巨大的挑戰(zhàn)。
今天的大數(shù)據(jù)流不僅包括了巨大的容量、多樣性和速度,還極其復(fù)雜。正如SAS在《大數(shù)據(jù)的歷史和當(dāng)下的熱點(diǎn)》一文中所指出的那樣,大數(shù)據(jù)流的多樣性“使得跨系統(tǒng)的連接、匹配、清理和數(shù)據(jù)轉(zhuǎn)換變得十分困難”。
找到有價(jià)值的見(jiàn)解不在于簡(jiǎn)單地收集盡可能多的數(shù)據(jù),而在于能夠找到正確的數(shù)據(jù)問(wèn)題。而使用手工流程完成所有工作是不可能的。這就是為什么越來(lái)越多的企業(yè)開(kāi)始“轉(zhuǎn)向數(shù)據(jù)目錄,以便實(shí)現(xiàn)數(shù)據(jù)訪問(wèn)的民主化,使組織的數(shù)據(jù)和知識(shí)能夠得到管理,然后應(yīng)用數(shù)據(jù)策略,并快速激活所有具有業(yè)務(wù)價(jià)值的數(shù)據(jù)”。
這就是數(shù)據(jù)目錄(有時(shí)也稱為信息目錄)的用途所在。正如這里所定義的,它們可用于授權(quán)“用戶探索所需的數(shù)據(jù)源并幫助其理解所探索的數(shù)據(jù),同時(shí)幫助組織從當(dāng)前的投資中實(shí)現(xiàn)更多的價(jià)值”。它實(shí)現(xiàn)這一目標(biāo)的一種方法是,在能夠使用或貢獻(xiàn)數(shù)據(jù)的不同類型的用戶之間,允許更大程度地訪問(wèn)數(shù)據(jù)。
信息經(jīng)濟(jì)學(xué)勢(shì)在必行
在2017年底,數(shù)據(jù)目錄的需求急劇增長(zhǎng),Gartner將其稱為“一種新的潮流”。它被認(rèn)為是一種快速、經(jīng)濟(jì)的解決方案,可以“對(duì)組織中日益分散和無(wú)序的數(shù)據(jù)資產(chǎn)進(jìn)行盤(pán)點(diǎn)和分類,并映射其信息供應(yīng)鏈”。之所以需要這樣做,是因?yàn)?ldquo;信息經(jīng)濟(jì)學(xué)”的興起,它要求像管理其他商業(yè)資產(chǎn)一樣,對(duì)信息進(jìn)行細(xì)致地跟蹤。
Gartner2018年第二季度的機(jī)器學(xué)習(xí)數(shù)據(jù)目錄報(bào)告:take jibes with The Forrester Wave顯示超過(guò)一半的調(diào)查參與者表示,他們已計(jì)劃建立自己的數(shù)據(jù)目錄。可能他們的動(dòng)機(jī)主要在于他們中的每個(gè)組織都包括了至少七個(gè)數(shù)據(jù)湖。正如Gartner對(duì)數(shù)據(jù)目錄所解釋的那樣,數(shù)據(jù)目錄對(duì)于提取通常以非分類形式留在數(shù)據(jù)湖中的“數(shù)據(jù)的上下文、意義和價(jià)值”特別有用。
Forrester的報(bào)告稱,在2017年,超過(guò)三分之一的數(shù)據(jù)和分析決策者正在處理1000 TB或更多的數(shù)據(jù),而前年這一數(shù)字僅為如今的10%至14%。管理如此規(guī)模的數(shù)據(jù)的確是一個(gè)日益嚴(yán)峻的挑戰(zhàn),具體來(lái)說(shuō),特別是下面的兩項(xiàng)挑戰(zhàn):
1)將現(xiàn)有業(yè)務(wù)流程合并到源數(shù)據(jù)中,以便分析和實(shí)現(xiàn)洞察力;2)隨著數(shù)據(jù)的增長(zhǎng),對(duì)其進(jìn)行尋源、收集、管理和治理。
數(shù)據(jù)目錄可以為企業(yè)做什么
Gartner指出了數(shù)據(jù)目錄改善組織信息流和生產(chǎn)力的具體方式:
•整理和傳達(dá)組織可用的信息資產(chǎn)清單。
•創(chuàng)建通用業(yè)務(wù)術(shù)語(yǔ)表,定義組織數(shù)據(jù)的語(yǔ)義解釋和含義,從而提供中介和解決定義不一致的方法。
•支持動(dòng)態(tài)和敏捷的協(xié)作環(huán)境,使業(yè)務(wù)和IT同事能夠評(píng)論、記錄和共享數(shù)據(jù)。
•通過(guò)沿襲和影響分析來(lái)提供數(shù)據(jù)使用的透明度。
•監(jiān)控、審計(jì)和跟蹤數(shù)據(jù),以支持信息治理流程。
•捕獲元數(shù)據(jù)以增強(qiáng)數(shù)據(jù)使用和重用的內(nèi)部分析、查詢優(yōu)化和數(shù)據(jù)認(rèn)證。
•通過(guò)捕獲、溝通和分析數(shù)據(jù)的存在、來(lái)源、使用環(huán)境、需要它的原因、流程和系統(tǒng)之間的流動(dòng)方式、誰(shuí)對(duì)它負(fù)責(zé)、它的含義以及它的價(jià)值,并在業(yè)務(wù)的使用中對(duì)信息進(jìn)行上下文的關(guān)聯(lián)。
Gartner的報(bào)告說(shuō),正確識(shí)別數(shù)據(jù)并讓組織中的關(guān)鍵人物能夠訪問(wèn)這些數(shù)據(jù)是很重要的,這不僅是為了找到“將數(shù)據(jù)資產(chǎn)轉(zhuǎn)化為數(shù)字業(yè)務(wù)成果的貨幣化”方法,也是為了遵守相關(guān)法規(guī),無(wú)論這些法規(guī)是行業(yè)內(nèi)的--如健康保險(xiǎn)可移植性和責(zé)任法案(HIPAA)或更一般的如通用數(shù)據(jù)保護(hù)法規(guī)(GDPR)。
加入機(jī)器學(xué)習(xí)
但是沒(méi)有什么是完美無(wú)缺的。對(duì)于數(shù)據(jù)目錄,問(wèn)題在于手動(dòng)構(gòu)建它們以及需要放置的所有元數(shù)據(jù)的過(guò)程是緩慢而乏味的。這就是機(jī)器學(xué)習(xí)組件的用武之地。
Forrester所評(píng)估的數(shù)據(jù)目錄被稱為MLDC,因?yàn)樗鼈兝昧巳斯ぶ悄艿牟糠纸M成之一--機(jī)器學(xué)習(xí)的力量。正如一個(gè)平臺(tái)數(shù)據(jù)博客所解釋的那樣,這使得“構(gòu)建一個(gè)持久的元數(shù)據(jù)存儲(chǔ)庫(kù),然后應(yīng)用ML/AI來(lái)找出并公開(kāi)潛在有用的底層數(shù)據(jù)資產(chǎn)見(jiàn)解”成為了可能。
如何選擇
為了幫助組織評(píng)估應(yīng)該選擇哪一個(gè)企業(yè)的產(chǎn)品,F(xiàn)orrester對(duì)排名前12位的MLDC設(shè)置了29個(gè)評(píng)估點(diǎn)。它確定了這個(gè)市場(chǎng)的領(lǐng)導(dǎo)者為:IBM、Relito、Unifi Software、Alation和Collibra。表現(xiàn)最好的是Informatica、Oracle、Waterline Data、Infogix、Cambridge semantic和Cloudera。而Hortonworks在“競(jìng)爭(zhēng)者”排名中表現(xiàn)突出。
然而,也不應(yīng)該只看整體排名。這份報(bào)告確實(shí)列出了每一種方法的優(yōu)缺點(diǎn)。因此,如果一個(gè)特定的特性,如研究和開(kāi)發(fā),對(duì)于一個(gè)組織來(lái)說(shuō)非常重要,它可以認(rèn)為Hortonworks與IBM和Colilbra的實(shí)力不相上下,因?yàn)檫@三家公司在這方面的得分最高,都是5分,比Alation和Coloudera高2分,比Cambridge Semantics高4分。
因此,F(xiàn)orrester報(bào)告也建議那些以其報(bào)告為指導(dǎo)的人不要想當(dāng)然地認(rèn)為排名第一的公司就是每個(gè)人的最佳選擇。他們應(yīng)密切注意評(píng)估的細(xì)節(jié),找出最符合自己要求的產(chǎn)品。