雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))按:本文原作者 George Hill ,他是知名商業(yè)媒體 Innovation Enterprise 的主編,同時也是 The Cyclist 公司的聯(lián)合創(chuàng)始人。雷鋒網(wǎng)編譯。
長期以來,Hadoop 這個詞鋪天蓋地,幾乎成了大數(shù)據(jù)的代名詞。三年之前,提起超越 Hadoop 這件事,似乎還顯得難以想象。但三年后的今天,這一情況發(fā)生了一些改變。
早在 2012 年,知名媒體 SiliconANGLE 就針對 Twitter 平臺上的大數(shù)據(jù)專業(yè)人士做了一項調(diào)查。調(diào)查結(jié)果顯示:這些專業(yè)人士日常談?wù)?NoSQL 等技術(shù)(如 MongoDB)的次數(shù)要遠多于 Hadoop。這表明,至少在數(shù)據(jù)科學(xué)家的群體中,用 Hadoop 代指大數(shù)據(jù)似乎并不準確。
不過,在大部分人的印象中,Hadoop 目前已經(jīng)是大數(shù)據(jù)行業(yè)最重要的技術(shù)之一,是構(gòu)建今天的常見數(shù)據(jù)庫的基礎(chǔ)。不但如此,Hadoop 還在其他一些領(lǐng)域積極拓展著自己的應(yīng)用范疇,例如倉儲系統(tǒng)等。
Hadoop 正失去市場?
然而令人驚訝的是,最近行業(yè)里開始傳出一種聲音:Hadoop 的市場占有率已經(jīng)出現(xiàn)了明顯的停滯不前。甚至 IBM 的大數(shù)據(jù)宣傳人員 James Kobielus 還公開表示:“Hadoop 在大數(shù)據(jù)領(lǐng)域的頹勢比我預(yù)期的還要嚴重。”
要明確 Hadoop 究竟為什么會停滯不前,似乎很復(fù)雜,但這種說法也可能是大數(shù)據(jù)行業(yè)里一種比較常見的現(xiàn)象。據(jù) Gartner 在2015年的研究顯示,市場上有高達 54% 的公司并沒有投資 Hadoop 的打算,而 44% 的公司已經(jīng)或計劃在未來兩年內(nèi)采用 Hadoop。這些數(shù)字在不同人看來可能會得到不同的結(jié)論:有些人會認為這意味著 Hadoop 在進一步的擴張,但同時也會有人認為 Hadoop 已經(jīng)顯出了頹勢。
與此同時,調(diào)查還顯示:在那些沒有投資的人中,有 49% 的人正在努力學(xué)習(xí)怎樣行之有效地利用 Hadoop 為企業(yè)創(chuàng)造更多價值,另外還有高達 57% 的人表示并非他們不想,但技能差距(skills gap)是主要障礙,而且這種差距無法在短期內(nèi)縮小。該結(jié)論與另一項關(guān)于 Hadoop 的調(diào)查相一致:在2014年中期,大約有 0.061% 的招聘廣告中出現(xiàn)了“Hadoop Testing”這個關(guān)鍵詞,然后該數(shù)字在 2016 年末又上升到 0.087%,在 18 個月內(nèi)增長了大約 43%。
上述事實或許可以表明:單純從 Hadoop 的市場占有率來推斷其發(fā)展態(tài)勢似乎有些片面了,因為還有許多公司并非不想采用 Hadoop,只是他們發(fā)現(xiàn)很難利用現(xiàn)有的技術(shù)團隊充分挖掘 Hadoop 的應(yīng)用價值,實際上,他們只是需要更多的專業(yè)知識。
殺雞無須牛刀
另一個值得關(guān)注的因素是數(shù)據(jù)量。Hadoop是專門針對海量數(shù)據(jù)而設(shè)計的,就像一位數(shù)據(jù)科學(xué)大牛之前在 KD Nuggets 網(wǎng)站的文章中所描述的那樣:如果你的企業(yè)中沒有海量的數(shù)據(jù),那就不需要 Hadoop。這也是為什么許多公司對他們只有 2TB 到 10TB 的 Hadoop 集群感到失望的原因,因為 Hadoop 技術(shù)在這樣的數(shù)據(jù)儲量下根本無法發(fā)揮其最大的價值。
還有一個不容忽視的現(xiàn)象是:目前有大量的公司其實并沒有足夠的數(shù)據(jù)量來推動 Hadoop 發(fā)揮其應(yīng)有的效力,但是為了充門面、趕潮流還是采用了 Hadoop 框架。然后經(jīng)過幾年的實踐,與真正懂行的數(shù)據(jù)科學(xué)家們共事之后,才最終意識到,以他們的數(shù)據(jù)積累,其實存在著比 Hadoop 更簡單、更合適的技術(shù)選擇。
事實上,對一些公司來說,采用Hadoop框架已經(jīng)產(chǎn)生了實際的財務(wù)問題。Cloudera 和 Hortonworks 就是通過 Hadoop 框架搭建其產(chǎn)品的最大的兩家公司,但是從 2015 年中期以來,他們的股價已經(jīng)分別下跌了 40% 和 68%。
最后,原作者在文末表示,上述關(guān)于 Hadoop 的批評或許顯得苛刻,需要澄清的一點是:并非 Hadoop 框架本身的缺陷造成了目前的停滯不前。相反,Hadoop 的問題應(yīng)該歸咎于市場上無休止的炒作和夸大。雖然許多公司跟風(fēng)采用了 Hadoop 技術(shù),但卻并沒有深刻理解它,也不清楚它正確的使用方法,因而也就無法發(fā)揮最高的運行效率,這才導(dǎo)致了 Hadoop 的頹勢。但是,原作者強調(diào),Hadoop 仍然是一種具有強大生命力的技術(shù),只是人們需要更深刻地認識它。