今天數(shù)據(jù)正在以前所未有的速度產(chǎn)生,每一個新的技術(shù)都將進(jìn)一步推動這種趨勢。物聯(lián)網(wǎng)(IoT)、機(jī)器學(xué)習(xí)和醫(yī)療保健數(shù)字化,產(chǎn)生數(shù)據(jù)的速度很快就達(dá)到每秒數(shù)百萬千兆字節(jié)。根據(jù)IMB的一項研究,自動駕駛汽車也將很快加入——到2020年每秒將生成350MB的數(shù)據(jù)。
數(shù)據(jù)的產(chǎn)生與收集已經(jīng)在企業(yè)中根深蒂固,時刻上演著大量數(shù)居的記錄與分析。但是,這些數(shù)據(jù)的存儲庫并不總是結(jié)構(gòu)化和一致的。事實(shí)上,未知的和未使用的數(shù)據(jù)催生了一個新的術(shù)語——“黑暗數(shù)據(jù)”。
如果我們不改變存儲、管理、結(jié)構(gòu)和分析數(shù)據(jù)的方式,大部分?jǐn)?shù)據(jù)都將變得毫無價值。IMB同一研究表明,今天收集的所有數(shù)據(jù)中有80%是“黑暗的”,也就是說,這些數(shù)據(jù)是無效和不連貫的。未來數(shù)據(jù)量越大,“黑暗數(shù)據(jù)”引發(fā)的黑洞也就越大,導(dǎo)致的問題與挑戰(zhàn)就越嚴(yán)重。
存儲和安全
最大的挑戰(zhàn)是,“黑暗數(shù)據(jù)”不僅難以分析,而且也容易導(dǎo)致存儲問題。大量的非結(jié)構(gòu)化數(shù)據(jù)——MS Office文件、即時消息、電子郵件、社交媒體帖子等形式獲得的數(shù)據(jù)就屬于此范疇。
目前存儲大數(shù)據(jù)的方式包括混合云、閃存存儲、智能軟件設(shè)計存儲(I-SDS)和冷庫歸檔。雖然存儲本身相對便宜,但是大型數(shù)據(jù)中心的維護(hù)和能源消耗產(chǎn)生的成本可能是一個天文數(shù)字。
安全性是與數(shù)據(jù)相關(guān)的另一個問題——無論是存儲在云上還是本地基礎(chǔ)設(shè)施上。由于數(shù)據(jù)源繁多,以及分布式計算在數(shù)據(jù)分析中的普及,均為數(shù)據(jù)泄露提供了眾多機(jī)會。
質(zhì)量與數(shù)量
對于大數(shù)據(jù)來說,組織迫切需要關(guān)注質(zhì)量數(shù)量。一般來說,數(shù)據(jù)集越大,其質(zhì)量越低。這樣清理數(shù)據(jù)將比分析數(shù)據(jù)涉及更多的工作。但是,通過僅收集有意義的數(shù)據(jù)可以減少這種精力消耗。組織應(yīng)努力收集來自內(nèi)部和外部來源的高質(zhì)量數(shù)據(jù)。但是,這種嘗試減少“暗數(shù)據(jù)”的收集并不總是可行的,在這種情況下,數(shù)據(jù)探索成為重要的一步。
數(shù)據(jù)探索是確定數(shù)據(jù)集質(zhì)量的過程,即使我們不知道我們正在尋找什么,也能有效地從數(shù)據(jù)中提取知識。在大數(shù)據(jù)分析中,最小的錯誤可能會引發(fā)隨后的錯誤計算,從而使整個分析無法使用。使用數(shù)據(jù)探索,分析人員可以識別在進(jìn)行清潔和策劃的昂貴且耗時的步驟之前可能存在的任何錯誤。
大數(shù)據(jù)分析肯定會在未來幾年甚至幾個月內(nèi)發(fā)生變化。認(rèn)知計算已經(jīng)準(zhǔn)備好利用人工智能挖掘出幾乎零錯誤的短距離數(shù)據(jù)集。然而,盡管如此,減少和簡化收集的大數(shù)據(jù)的需求仍然比以往任何時候都重要。