業(yè)界對(duì)于Hadoop商業(yè)前景的關(guān)注因Hortonworks公司去年十一月上市而變得更加熱烈,該公司是雅虎為其開源流程框架而與風(fēng)投公司聯(lián)合成立的,現(xiàn)已成為第一家排名前三的獨(dú)立Hadoop發(fā)行版提供商。
于是在近期舉行的Hadoop 2015峰會(huì)上(由Hortonworks公司和雅虎公司聯(lián)合舉辦的年度Hadoop會(huì)議),大家對(duì)Hadoop的關(guān)注更密切了。根據(jù)Gartner最新調(diào)查結(jié)果顯示,Hadoop平臺(tái)仍然處在早期采納階段。與此同時(shí),新的開源和專用工具不斷涌現(xiàn)出來,幫助組織躍過Hadoop概念原型驗(yàn)證階段,走向全面的生產(chǎn)應(yīng)用階段,為眾多用戶提供支持。
Hortonworks公司CEORob Bearder并沒有直接反駁Gartner公司的數(shù)據(jù)。相反,他呼吁與會(huì)者“在上下文中去看它。我們只是在開始進(jìn)入一個(gè)領(lǐng)域,它將變得更有變革能力。”Bearden表示,Hadoop正在經(jīng)歷關(guān)系型數(shù)據(jù)庫25到30年前經(jīng)歷過的困難發(fā)展點(diǎn),但Hadoop的進(jìn)程顯然要更快。
Hadoop之杯:半滿還是半空?
據(jù)Gartner報(bào)告稱,在284名IT和商業(yè)領(lǐng)袖受訪者中,54%表示未來兩年在Hadoop方面不會(huì)有投資計(jì)劃。一些人把這項(xiàng)調(diào)查看做是玻璃杯半空的一種表現(xiàn)(喻示悲觀),而另一些人則認(rèn)為杯子是半滿的(喻示樂觀)。該調(diào)查是在今年早些時(shí)候發(fā)起的,到現(xiàn)在只有26%的受訪者最終實(shí)施了部署、試點(diǎn)或試驗(yàn)。但是Bearden提醒大家注意,數(shù)據(jù)顯示還有另外18%的受訪者在未來兩年將加入Hadoop使用者的行列。
高度興奮的Hadoop要走出早期采納者的角色,走向更廣闊的企業(yè)平臺(tái),需要面對(duì)的一個(gè)重大障礙就是技能不足。所涉及的技能包括從早期編程和配置階段到后端分析能力都有。
特別是在分析階段,Hadoop的數(shù)據(jù)累積功能可以幫助處理非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),轉(zhuǎn)化為企業(yè)的數(shù)據(jù)資產(chǎn),同時(shí)可以使用一些針對(duì)Hadoop支持SQL的產(chǎn)品,這些工具為那些公司精通SQL的員工打開了通往Hadoop數(shù)據(jù)的道路。
MikeHoskins是供應(yīng)商Actian公司負(fù)責(zé)數(shù)據(jù)管理和分析技術(shù)的CTO,他說:“人們已經(jīng)有了大量重要的基礎(chǔ)設(shè)施在支撐其企業(yè)運(yùn)營(yíng)。SQL正是他們獲取數(shù)據(jù)分析最有用的工具,對(duì)SQL的集成也是Hadoop采納的一個(gè)重要門檻。”
為Hadoop播下SQL種子
在某些方面,針對(duì)Hadoop的SQL工具已經(jīng)是相當(dāng)豐富了。在本次大會(huì)的一次專題分會(huì)上,F(xiàn)orrester研究公司分析師Mike Gualtieri指出,所有的SQL工具對(duì)Hadoop用戶都可用了。
自2007年Facebook公司把ApacheHive數(shù)據(jù)倉庫軟件開源以來,針對(duì)Hadoop的SQL工具就蜂擁而出,包括Actian Vortex,Pivotal Hawq,Cloudera Impala,JethroData命名的SQL引擎以及其它產(chǎn)品。這些技術(shù)其中有一些是在本次Hadoop峰會(huì)上新發(fā)布的。例如,Hadoop分銷商MapR展示了ApacheDrill的新版本,這是一款開源工具,在五月份發(fā)布了1.0版本。
JackNorris是MapR的首席營(yíng)銷官,他說:“Drill產(chǎn)品幫助處理數(shù)據(jù)存在但是很難找到的情況。核心IT機(jī)構(gòu)預(yù)算不足更要求在Hadoop啟用實(shí)施到生產(chǎn)環(huán)境之前要進(jìn)行充分的概念驗(yàn)證。這是個(gè)雞生蛋、蛋生雞的問題,這正是Drill和基于SQL的數(shù)據(jù)搜索工具可以有所作為的地方。”
在這次會(huì)議上,Teradata公司也表示,他們會(huì)為Presto項(xiàng)目做出貢獻(xiàn),這也是一款開源Hadoop SQL查詢引擎,最早是Facebook發(fā)起的作為Hive的后續(xù)產(chǎn)品。Presto引擎還可以與非Hadoop分布文件系統(tǒng)存儲(chǔ)的數(shù)據(jù)寫作,使用管道或其它技術(shù)提升Hive的性能。
Teradata的貢獻(xiàn)可能集中在ODBC和JDBC驅(qū)動(dòng)方面,與Hadoop的YARN資源管理軟件、安裝包、監(jiān)視工具和文檔集成,所有這些都讓Presto更像商業(yè)軟件了。
Hadoop平臺(tái)仍然是移動(dòng)的目標(biāo)
Presto,Drill和Hadoop生態(tài)系統(tǒng)周邊的其它產(chǎn)品有時(shí)會(huì)讓人混淆,令人迷惑Hadoop平臺(tái)到底是什么,它將變成什么。Spark流程引擎貌似Hadoop原生MapReduce引擎的替代品,它是另一個(gè)重要的案例。
分析師Curt Monash看到了圍繞Hadoop架構(gòu)不斷發(fā)展的意義,他還強(qiáng)調(diào)說,目前還不清楚原生Hadoop堆棧的哪部分將繼續(xù)長(zhǎng)期發(fā)展。
Monash說:“我們正處在這個(gè)點(diǎn)上,在分析領(lǐng)域?qū)⒂兄卮髣?chuàng)新,是基于新數(shù)據(jù)管理、數(shù)據(jù)遷移和數(shù)據(jù)分析體系的。但是,現(xiàn)在數(shù)據(jù)負(fù)載的研究領(lǐng)域要從傳統(tǒng)系統(tǒng)轉(zhuǎn)向新堆棧仍然還有一些限制。在一般情況下,Hadoop采納情況對(duì)于新應(yīng)用出現(xiàn)更早,對(duì)于替換或者更換舊應(yīng)用的情況要差一些。”
要實(shí)現(xiàn)更快速的Hadoop應(yīng)用增長(zhǎng),還有一個(gè)障礙是組織的心態(tài)需要全面改變,這樣才能給公司引入數(shù)據(jù)流。對(duì)于像Schlumberger有限公司這樣原來就應(yīng)用大數(shù)據(jù)的機(jī)構(gòu),尤其如此。(該公司是一家石油和天然氣技術(shù)服務(wù)供應(yīng)商,總部位于Houston。)
在考慮數(shù)據(jù)組織的問題時(shí),會(huì)存在挑戰(zhàn)。Anil Varma是Schlumberger公司負(fù)責(zé)數(shù)據(jù)和分析的副總裁,他說:“你如何設(shè)計(jì)你的推進(jìn)過程,數(shù)據(jù)已經(jīng)成為了公司能運(yùn)行多先進(jìn)的基礎(chǔ)。但是,我不認(rèn)為組織的結(jié)構(gòu)已經(jīng)優(yōu)化到可以適應(yīng)它的水平了。”