尋求從公司所收集的數(shù)據(jù)中獲得業(yè)務(wù)價(jià)值的IT領(lǐng)導(dǎo)者一直面臨著無(wú)數(shù)挑戰(zhàn)。也許最難以理解的是失去了對(duì)那些被創(chuàng)建的、經(jīng)常存儲(chǔ)的、但很少與之交互的數(shù)據(jù)進(jìn)行利用的機(jī)會(huì)。
這種以物理學(xué)中的暗物質(zhì)命名的所謂“暗數(shù)據(jù)”,是在經(jīng)營(yíng)流程中例行收集的信息:它是由員工、客戶和業(yè)務(wù)流程所產(chǎn)生的。它可能是由計(jì)算機(jī)、應(yīng)用程序和安全系統(tǒng)所生成的日志文件。也可能是出于遵從性的目的而必須保存的文檔,以及永遠(yuǎn)不應(yīng)該保存但仍然保存了的敏感數(shù)據(jù)。
根據(jù)Gartner的說(shuō)法,你的企業(yè)信息世界中的大多數(shù)數(shù)據(jù)都是由“暗數(shù)據(jù)”組成的,許多公司甚至都不知道他們擁有多少此類數(shù)據(jù)。存儲(chǔ)數(shù)據(jù)會(huì)增加合規(guī)性和網(wǎng)絡(luò)安全風(fēng)險(xiǎn),當(dāng)然,也會(huì)增加成本。
弄清楚你擁有哪些暗數(shù)據(jù)、它們保存在哪里以及其中包含哪些信息是確保這些暗數(shù)據(jù)中有價(jià)值的部分是安全的,而不應(yīng)該保存的部分則會(huì)被刪除的關(guān)鍵步驟。但是,發(fā)掘這些隱藏?cái)?shù)據(jù)的真正優(yōu)勢(shì)可能在于將其用于實(shí)際的業(yè)務(wù)。
但想要挖掘暗數(shù)據(jù)并非易事。它有各種各樣的格式,可以完全非格式化,例如,可能是被鎖在了掃描文檔或音頻和視頻文件當(dāng)中。
以下是一些企業(yè)將暗數(shù)據(jù)轉(zhuǎn)化為商業(yè)機(jī)會(huì)的方法,以及業(yè)內(nèi)人士對(duì)希望利用暗數(shù)據(jù)的IT領(lǐng)導(dǎo)者的一些建議。
來(lái)自賽車手的編碼音頻
五年來(lái),Envision Racing一直在收集100多場(chǎng)E級(jí)方程式賽車的錄音,每場(chǎng)比賽都會(huì)有20多名車手參加。
“廣播流在開放頻率上可供任何人收聽,”Genpact全球分析主管Amaresh Tripathy說(shuō)。Genpact是一家咨詢公司,正在幫助Envision Racing利用這些數(shù)據(jù)。
此前,英國(guó)賽車隊(duì)的賽車工程師試圖在比賽期間實(shí)時(shí)使用這些音頻傳輸,但車手所使用的代號(hào)和首字母縮寫詞使其難以被理解和利用,但是,了解其他車手所說(shuō)的內(nèi)容有助于幫助設(shè)想賽車手的賽車策略,Tripathy說(shuō)。
“例如何時(shí)使用進(jìn)攻模式。何時(shí)進(jìn)行超車。何時(shí)該剎車。”他說(shuō)。
Envision Racing還從自己的汽車上收集了傳感器數(shù)據(jù),如輪胎、電池和剎車,并從供應(yīng)商處購(gòu)買了外部數(shù)據(jù),如風(fēng)速和降水量。
Genpact和Envision Racing合作,解鎖了這些數(shù)據(jù)流的價(jià)值,并利用自然語(yǔ)言處理所構(gòu)建的深度學(xué)習(xí)模型對(duì)它們進(jìn)行了分析。這個(gè)流程花了六個(gè)月的時(shí)間,從準(zhǔn)備數(shù)據(jù)管道,到接收數(shù)據(jù),到過(guò)濾噪音,再到產(chǎn)生有意義的對(duì)話。
Tripathy說(shuō),人類需要5到10秒才能弄清楚自己在聽什么,這種延遲使得無(wú)線電通信變得無(wú)關(guān)緊要了。而現(xiàn)在,由于人工智能模型的預(yù)測(cè)和洞察,他們現(xiàn)在可以在一到兩秒鐘內(nèi)就做出反應(yīng)了。
今年7月,在紐約舉行的ABB國(guó)際汽聯(lián)電動(dòng)方程式世界錦標(biāo)賽上,Envision Racing的車隊(duì)獲得了第一名和第三名,Tripathy將這一結(jié)果歸功于利用了以前的暗數(shù)據(jù)。
暗數(shù)據(jù)掘金:人工生成的數(shù)據(jù)
Envision Racing的音頻文件是人類生成暗數(shù)據(jù)的一個(gè)例子,它旨在供其他人使用,而不是供機(jī)器使用。數(shù)據(jù)存檔平臺(tái)提供商ZL Technologies的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Kon Leong表示,這種暗數(shù)據(jù)對(duì)企業(yè)來(lái)說(shuō)是非常有用的。
“它對(duì)于理解企業(yè)人性化方面的每一個(gè)要素,包括文化、績(jī)效、影響力、專業(yè)知識(shí)和參與度,都具有難以置信的強(qiáng)大功能。”他說(shuō)。“員工每天都在分享絕對(duì)海量的數(shù)字信息和知識(shí),但到目前為止,這些信息和知識(shí)在很大程度上都尚未得到開發(fā)。”
電子郵件、消息和文件中所包含的信息都可以幫助企業(yè)獲得洞見,例如企業(yè)中最有影響力的人是誰(shuí)。“公司80%的時(shí)間都花在了溝通上。然而,分析所處理的數(shù)據(jù)往往只反映了我們所花費(fèi)的1%的時(shí)間。”
處理人類生成的非結(jié)構(gòu)化數(shù)據(jù)具有獨(dú)特的挑戰(zhàn)性。例如,數(shù)據(jù)倉(cāng)庫(kù)通常就不是用來(lái)處理這些通信的。此外,收集這些通信也可能會(huì)給公司帶來(lái)新的問(wèn)題,涉及合規(guī)性、隱私和法律發(fā)現(xiàn)。
“這些治理能力在今天的數(shù)據(jù)湖概念中并不存在,事實(shí)上,通過(guò)將數(shù)據(jù)收集到數(shù)據(jù)湖中,你可能又創(chuàng)造了另一個(gè)豎井,增加了隱私和合規(guī)性風(fēng)險(xiǎn)。”Leong說(shuō)。
相反的,公司也可以將這些數(shù)據(jù)留在當(dāng)前所在的位置,只需添加一層索引和可搜索的元數(shù)據(jù)。保留這些數(shù)據(jù)還將使其保持在現(xiàn)有的合規(guī)性結(jié)構(gòu)之內(nèi),他表示。
有效治理是關(guān)鍵
處理價(jià)值和來(lái)源有問(wèn)題的暗數(shù)據(jù)的另一種方法是從可追溯性開始。
《數(shù)據(jù)可觀測(cè)性基礎(chǔ)》一書的作者Andy Petrella說(shuō):“暗數(shù)據(jù)現(xiàn)在被認(rèn)為是一種可以利用的未開發(fā)資源,這是行業(yè)的一個(gè)積極發(fā)展。”該書目前在O'Reilly以預(yù)發(fā)布的形式提供。Petrella還是數(shù)據(jù)可觀測(cè)性提供商Kensu的創(chuàng)始人。
“利用暗數(shù)據(jù)的挑戰(zhàn)在于,人們對(duì)它的信心很低。”特別是關(guān)于數(shù)據(jù)收集的地點(diǎn)和方式,他說(shuō)。“可觀察性可以使數(shù)據(jù)譜系透明,因此是可追溯的??勺匪菪詫?shí)現(xiàn)了數(shù)據(jù)質(zhì)量檢查,從而使得人們對(duì)使用這些數(shù)據(jù)來(lái)訓(xùn)練AI模型或根據(jù)其帶來(lái)的智能來(lái)采取行動(dòng)也充滿了信心。”
專注于監(jiān)管、風(fēng)險(xiǎn)和合規(guī)性問(wèn)題的全球咨詢公司StoneTurn的董事總經(jīng)理Chuck Soha也認(rèn)為,處理暗數(shù)據(jù)的通用方法——把所有東西都扔進(jìn)數(shù)據(jù)湖里——會(huì)帶來(lái)巨大的風(fēng)險(xiǎn)。
這在金融服務(wù)行業(yè)尤其如此,該行業(yè)的企業(yè)多年來(lái)一直在向數(shù)據(jù)湖發(fā)送數(shù)據(jù),他表示。“在一個(gè)典型的企業(yè)中,IT部門會(huì)將所有可用數(shù)據(jù)與一些基本元數(shù)據(jù)一起轉(zhuǎn)儲(chǔ)到一個(gè)地方,并創(chuàng)建與業(yè)務(wù)團(tuán)隊(duì)共享的流程。”他說(shuō)。
這適用于內(nèi)部擁有必要分析人才或?yàn)樘囟ㄓ美刚?qǐng)了外部顧問(wèn)的業(yè)務(wù)團(tuán)隊(duì)。但在大多數(shù)情況下,這些舉措只是取得了部分成功,Soha說(shuō)。
“首席信息官們從‘不知道自己不知道’轉(zhuǎn)變?yōu)榱?lsquo;知道自己不知道’,”他說(shuō)。
相反,公司應(yīng)該從數(shù)據(jù)治理開始,了解存在什么數(shù)據(jù),它可能會(huì)有什么問(wèn)題,而其中的數(shù)據(jù)質(zhì)量會(huì)是首要問(wèn)題。
“利益相關(guān)者可以決定是清理和標(biāo)準(zhǔn)化它,還是從更好的信息管理實(shí)踐開始。”Soha說(shuō),而致力于從包含不一致或沖突信息的數(shù)據(jù)中提取見解將是一個(gè)錯(cuò)誤。
Soha還建議將各個(gè)業(yè)務(wù)部門已有的良好運(yùn)營(yíng)數(shù)據(jù)聯(lián)系起來(lái)。弄清楚這些關(guān)系可以產(chǎn)生快速而有用的見解,并可能不需要立即查看任何暗數(shù)據(jù),他說(shuō)。“它還可能識(shí)別出可以優(yōu)先考慮的空白,然后在暗數(shù)據(jù)中開始尋找填補(bǔ)這些空白的地方。”
最后,他說(shuō),人工智能在幫助理解剩余的非結(jié)構(gòu)化數(shù)據(jù)方面也非常有用。“通過(guò)使用機(jī)器學(xué)習(xí)和AI技術(shù),人類可以只查看1%的暗數(shù)據(jù),并對(duì)其相關(guān)性進(jìn)行分類。”他說(shuō)。“然后,強(qiáng)化學(xué)習(xí)模型就可以快速生成剩余數(shù)據(jù)的相關(guān)度分?jǐn)?shù),進(jìn)而更仔細(xì)的觀察數(shù)據(jù)的優(yōu)先級(jí)了。”
利用AI來(lái)提取價(jià)值
用于處理暗數(shù)據(jù)的常見人工智能解決方案包括了亞馬遜的Textract、微軟的Azure Cognitive Services、IBM的Datacap,以及谷歌的Cloud Vision、Document、AutoML和NLP API。
在Genpact與Envision Racing的合作中,Genpact在內(nèi)部編寫了機(jī)器學(xué)習(xí)算法,Tripathy說(shuō)。他說(shuō),這需要Docker、Kubernetes、Java和Python的知識(shí),以及NLP、深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法開發(fā),以及需要MLOps架構(gòu)師來(lái)管理整個(gè)流程。
不幸的是,這些技能都很難獲得。Splunk去年秋天發(fā)布的一份報(bào)告顯示,在接受調(diào)查的1300多名IT和商業(yè)決策者中,只有10%到15%的人表示,他們的企業(yè)正在使用人工智能來(lái)解決暗數(shù)據(jù)問(wèn)題。缺乏必要的技能是利用暗數(shù)據(jù)的主要障礙,僅次于數(shù)據(jù)本身的數(shù)量。
風(fēng)險(xiǎn)與機(jī)遇并存
與此同時(shí),暗數(shù)據(jù)仍然是一個(gè)越來(lái)越多的風(fēng)險(xiǎn)和機(jī)遇的寶庫(kù)。根據(jù)行業(yè)的不同,對(duì)企業(yè)數(shù)據(jù)中黑暗部分的估計(jì)會(huì)從40%到90%不等。
根據(jù)由Quest贊助的Enterprise Strategy Group 7月份的一份報(bào)告,平均而言,有47%的數(shù)據(jù)是暗數(shù)據(jù),而20%的受訪者表示,他們的數(shù)據(jù)中有超過(guò)70%是暗數(shù)據(jù)。Splunk的調(diào)查也顯示了類似的結(jié)果,平均55%的企業(yè)數(shù)據(jù)是暗數(shù)據(jù),三分之一的受訪者表示,他們的企業(yè)數(shù)據(jù)中有75%或更多的是暗數(shù)據(jù)。
在情況好轉(zhuǎn)之前,還可能會(huì)變得更糟,因?yàn)?0%的受訪者表示,他們的企業(yè)中有一半以上的數(shù)據(jù)還根本沒有被捕獲,其中的大部分甚至都沒有被理解為是存在的。隨著這些數(shù)據(jù)被逐漸發(fā)現(xiàn)并存儲(chǔ),暗數(shù)據(jù)的數(shù)量還將繼續(xù)上升。
首席信息官們是時(shí)候制定一個(gè)應(yīng)對(duì)這種情況的計(jì)劃了,并著眼于充分利用任何有望為企業(yè)創(chuàng)造新價(jià)值的暗數(shù)據(jù)。
關(guān)于企業(yè)網(wǎng)D1net(r5u5c.cn):
國(guó)內(nèi)主流的to B IT門戶,同時(shí)在運(yùn)營(yíng)國(guó)內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營(yíng)18個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。