IBM公司最近發(fā)布的調(diào)查報告表明,“當(dāng)今全球90%的數(shù)據(jù)都是在過去兩年內(nèi)創(chuàng)建的”。并且每天的數(shù)據(jù)正在以2.5ZB字節(jié)增長,這個數(shù)字將接下來的幾年得到爆炸式增長。
這似乎令人印象深刻,但其中大部分僅僅是原始數(shù)據(jù)。但是,人們可能會指出,有了這些數(shù)據(jù),人們正在推進技術(shù),改進結(jié)果,豐富生活,做出更好的決策。這是事實。但是,如果所有這些數(shù)據(jù)都得到了豐富,那么這些結(jié)果有多大的改善呢?考慮一下豐富數(shù)據(jù)的概念,使數(shù)據(jù)真正成為組織、項目或研究的資產(chǎn)。它也顯示了以多種方式積極使用數(shù)據(jù)的共同重要性。
當(dāng)然,數(shù)據(jù)豐富程度也不盡相同,能夠以不同的方式工作。在這個過程中使用了大量的工具,其最終目標(biāo)是數(shù)據(jù)的細(xì)化。這可能就像修正輕微的數(shù)據(jù)輸入錯誤,使用算法的拼寫錯誤或拼寫錯誤一樣簡單。遵循這個基本原理,數(shù)據(jù)豐富工具可以將信息添加到基本數(shù)據(jù)表中。數(shù)據(jù)豐富的另一個例子是通過外推數(shù)據(jù)。這是通過使用諸如模糊邏輯等數(shù)據(jù)方法完成的,數(shù)據(jù)庫管理員或數(shù)據(jù)科學(xué)家可以從給定的原始數(shù)據(jù)集中生成更多的數(shù)據(jù)。
在大數(shù)據(jù)的世界里,數(shù)據(jù)豐富化已經(jīng)實現(xiàn),使集成數(shù)據(jù)的業(yè)務(wù)價值顯著提高。正如人們最近注意到的有關(guān)ETL供應(yīng)商和開發(fā)人員的工作,他們傳統(tǒng)上只是將數(shù)據(jù)從源數(shù)據(jù)移動到目標(biāo)數(shù)據(jù)?,F(xiàn)在是使用數(shù)據(jù)濃縮過程和技術(shù)改進結(jié)果的時候了。但是,需要注意的是,企業(yè)應(yīng)該領(lǐng)導(dǎo)和管理豐富數(shù)據(jù)的定義。
人們可能會問,企業(yè)的業(yè)務(wù)或流程如何為其數(shù)據(jù)增加價值,并支持跨越數(shù)據(jù)豐富的更大決策。基本的數(shù)據(jù)豐富服務(wù)可以很容易地從一些提供商獲得,如Lusha,Crunchbase,Trillium等獲得。當(dāng)企業(yè)選擇一個數(shù)據(jù)豐富的合作伙伴時,重要的是清楚地將組織的業(yè)務(wù)目標(biāo)傳達(dá)給潛在合作伙伴。
數(shù)據(jù)收集的好處
那么現(xiàn)在企業(yè)可以豐富其正在收集的數(shù)據(jù),但是是否了解收集所存儲的這些數(shù)據(jù)的好處?企業(yè)可以做出正確的決定,確保盡可能高效地收集和存儲數(shù)據(jù)。當(dāng)然,這對企業(yè)的業(yè)務(wù)或項目至關(guān)重要。然而,真正的價值在于如何增加數(shù)據(jù),并將最終獲得它的好處。如果企業(yè)能夠更好地理解和了解自己的業(yè)務(wù),從而幫助企業(yè)改善決策,激發(fā)客戶參與度,并提高盈利水平,那么數(shù)據(jù)豐富的程度將最為重要。
最終,企業(yè)的目標(biāo)是提高當(dāng)前存儲的數(shù)據(jù)。無論是在捕獲點還是在數(shù)據(jù)積累之后,從全面的信息源中增加洞察力,這都是獲得真正價值的地方。有了這個洞察力,企業(yè)將獲得對自己的前景和目標(biāo)市場更好、更完整的理解。從本質(zhì)上講,企業(yè)將通過將業(yè)務(wù)信息附加到自己捕獲和存儲的記錄中,詳細(xì)了解市場,找出業(yè)務(wù)前景的關(guān)鍵社會人群,或提高整個業(yè)務(wù)部門的效率。
豐富到下一個層次-機器學(xué)習(xí)
當(dāng)然,使用精確算法是豐富數(shù)據(jù)的一種常用方法,但是如何使用機器學(xué)習(xí)來實現(xiàn)更高級別或更快速的數(shù)據(jù)豐富化過程呢?通常在談?wù)摍C器學(xué)習(xí)時,企業(yè)將構(gòu)建預(yù)測模型關(guān)聯(lián)起來,從而產(chǎn)生洞察力,直接幫助業(yè)務(wù)經(jīng)理做出決策。使用機器學(xué)習(xí)作為數(shù)據(jù)豐富應(yīng)用程序的一部分,通常用于向現(xiàn)有數(shù)據(jù)添加有用的標(biāo)簽或其他材料,以便更有效地使用該數(shù)據(jù)。在這些過程中,機器學(xué)習(xí)的功能發(fā)生在分析或豐富數(shù)據(jù)的早期階段。在大數(shù)據(jù)環(huán)境下工作時,有時收集的數(shù)據(jù)量太大,人為地將這種分類信息添加到數(shù)據(jù)中是不切實際的。因此,機器學(xué)習(xí)對這些巨大任務(wù)將會有一定的依賴。