企業(yè)網(wǎng)D1Net 2012年5月3日 IDC(國(guó)際數(shù)據(jù)公司)研究副總裁Susan Feldman(蘇珊·費(fèi)爾德曼)在本周舉行的一次大型數(shù)據(jù)圓桌會(huì)議上指出,大數(shù)據(jù)技術(shù)的復(fù)雜性要求從業(yè)人員具有豐富的技巧,而在IT專業(yè)人士中這樣的人是比較少見(jiàn)的。對(duì)于這些新技術(shù),很多人都不是很熟練。對(duì)此,F(xiàn)eldman還發(fā)出了這樣的疑問(wèn):“如果員工并不熟悉大數(shù)據(jù)技術(shù),那么企業(yè)應(yīng)該如何分配工作給他們呢?”
在分析數(shù)百千兆字節(jié)或者拍字節(jié)的非結(jié)構(gòu)化數(shù)據(jù)時(shí),公司所采用的最常見(jiàn)的技術(shù)是利用一個(gè)被稱為Hadoop的開(kāi)源系統(tǒng)。Hadoop中有一道叫做并行程序設(shè)計(jì)的工序,這道工序能夠使分析在數(shù)百臺(tái)有很多磁盤(pán)驅(qū)動(dòng)器、同一時(shí)間啟動(dòng)的服務(wù)器上進(jìn)行,它把數(shù)據(jù)存儲(chǔ)在一個(gè)叫做HDFS(Hadoop分布式文件系統(tǒng))的文件系統(tǒng)里,這樣,一個(gè)可以跨多個(gè)磁盤(pán)驅(qū)動(dòng)器和服務(wù)器的平面文件系統(tǒng)就可以正常運(yùn)作了。
然而,業(yè)界人士廣泛認(rèn)為Hadoop是一個(gè)極難掌握的復(fù)雜系統(tǒng),它要求從事這份工作的人具有很高的技術(shù)開(kāi)發(fā)能力。此外,企業(yè)還缺乏有效的生態(tài)系統(tǒng)和關(guān)于開(kāi)源產(chǎn)品的標(biāo)準(zhǔn)的制定。
Feldman還指出,“現(xiàn)在精通Hadoop的專家很少,而且能夠支持Hadoop運(yùn)作的工具都還不太理想。你需要的不僅僅是知道如何操作Hadoop文件系統(tǒng)的專家,而且還需要那些知道如何用三流的工具來(lái)操縱Hadoop文件系統(tǒng)的專家。”
Feldman敦促Autonomy、EMC、Teradata和IBM公司改進(jìn)技術(shù),以減少技能危機(jī)對(duì)本公司的影響。 “如果供應(yīng)商能提供的專業(yè)知識(shí),如果他們能保持軟件更新,那么這將減少企業(yè)IT部門(mén)的負(fù)擔(dān)。”
“將所有的大數(shù)據(jù)塊整合成一個(gè)良好的系統(tǒng),并使該系統(tǒng)內(nèi)的一切都可以自由地交互,這是非常困難的。大多數(shù)從事這類工作的人也許可以再聘請(qǐng)10個(gè)人,但他們都得獨(dú)立工作。”
IDC(國(guó)際數(shù)據(jù)公司)預(yù)測(cè)道,在2010年和2015年之間,大數(shù)據(jù)硬件、軟件和服務(wù)銷(xiāo)售市場(chǎng)的年均復(fù)合增長(zhǎng)率將達(dá)到39.4%.然而,這種沒(méi)有把占企業(yè)已用資源相當(dāng)數(shù)量的帳戶開(kāi)源產(chǎn)品考慮在內(nèi)的算法,其實(shí)是不太準(zhǔn)確的。