隨著更多新興工具和技術(shù)的出現(xiàn),許多企業(yè)正在努力應(yīng)對(duì)當(dāng)今大數(shù)據(jù)和數(shù)據(jù)科學(xué)生態(tài)系統(tǒng)的復(fù)雜性。
根據(jù)TDWI(數(shù)據(jù)倉(cāng)庫(kù)研究所)的最新研究,專(zhuān)業(yè)數(shù)據(jù)科學(xué)家的短缺仍然是企業(yè)面臨的數(shù)據(jù)科學(xué)的挑戰(zhàn)之一。
TDWI公司副總裁兼研究總監(jiān)Fern Halper說(shuō):“我們經(jīng)常聽(tīng)到很多組織表示,在數(shù)據(jù)科學(xué)環(huán)境中面臨的最大挑戰(zhàn)是找到合適的技術(shù)和工具。”
該研究收集了超過(guò)300家企業(yè)的大數(shù)據(jù)和數(shù)據(jù)科學(xué)經(jīng)驗(yàn)。大數(shù)據(jù)分析和數(shù)據(jù)科學(xué)經(jīng)驗(yàn)這兩個(gè)主題越來(lái)越融合,因?yàn)榻M織需要了解過(guò)去幾年中收集大量數(shù)據(jù)的工作者。
此次調(diào)查的受訪者列舉的其他常見(jiàn)挑戰(zhàn)還有:缺乏對(duì)大數(shù)據(jù)工具的了解,缺乏利用大數(shù)據(jù)所需的企業(yè)架構(gòu),安全和隱私問(wèn)題以及治理協(xié)議不足等問(wèn)題。
尤其是技術(shù)方面的問(wèn)題特別棘手。Halper表示,在過(guò)去幾年中出現(xiàn)了許多新工具,包括Hadoop,Spark,Python等等,企業(yè)很難確保跟上這些新工具、新技術(shù)快速發(fā)展的步伐。
有些受訪者認(rèn)為很多技術(shù)讓人眼花繚亂,其中不乏炒作的因素,他們有時(shí)不知道該怎樣面對(duì)技術(shù)的迭代更新。另外一些人認(rèn)為技術(shù)和工具變更速度很快,如果缺乏敏捷性,他們不一定能保持最好的架構(gòu)。
現(xiàn)在,企業(yè)都在使用自己熟悉的工具和技術(shù)應(yīng)對(duì)數(shù)據(jù)科學(xué)的挑戰(zhàn)。約80%的受訪者表示他們目前使用數(shù)據(jù)倉(cāng)庫(kù)工具作為主要數(shù)據(jù)源。對(duì)于分析而言,簡(jiǎn)單的查詢和數(shù)據(jù)可視化工具是最常用的。在接下來(lái)的兩年中,數(shù)據(jù)倉(cāng)庫(kù)工具將依然廣受歡迎,與此同時(shí),Hadoop和開(kāi)源R也受到更多企業(yè)的青睞。
Halper說(shuō),調(diào)查結(jié)果顯示出非結(jié)構(gòu)化數(shù)據(jù)查詢和預(yù)測(cè)分析(包括機(jī)器學(xué)習(xí))的強(qiáng)勁勢(shì)頭。這些新興工具和技術(shù)似乎將在未來(lái)將徹底取代更多的工具。
“數(shù)據(jù)倉(cāng)庫(kù)不會(huì)消失,但它正被其他類(lèi)型的平臺(tái)取代,并創(chuàng)建一個(gè)生態(tài)系統(tǒng),” Halper說(shuō), “預(yù)測(cè)分析是一項(xiàng)熱門(mén)技術(shù),再加上機(jī)器學(xué)習(xí)的驅(qū)動(dòng),未來(lái)的發(fā)展勢(shì)頭不可小覷。”