2015也快過去一半了,Hadoop在過去一年的發(fā)展究竟如何,下面小象帶你盤點一下2014Hadoop大事件!
2014年2月,Hadoop 2.3.0發(fā)布,新特性包括支持HDFS的混合存儲分級,可以集中管理HDFS內(nèi)存里的緩存數(shù)據(jù),通過HDFS中的YARN分布式緩存簡化MapReduce分配及一些Bug修正。
2014年4月,Hadoop 2.4.0發(fā)布。包括HDFS支持ACL權(quán)限控制機制、容易升級、支持支持https訪問、支持ResourceManager因故障掛掉重啟后,可以恢復(fù)之前正在運行的應(yīng)用程序(用戶不需重新提交)、增加了Yarn共享信息存儲模塊ATS等。
2014年8月,Hadoop 2.5.0發(fā)布。新特性包括擴展文件屬性、改進 HDFS 的 Web UI,提升 Yarn共享信息存儲模塊ATS 安全性,更豐富的 YARN REST API 等。
2014年11月,Hadoop 2.6.0發(fā)布。增加了基于HadoopKeyProvider API編寫的密鑰管理服務(wù)器Hadoop Key Management Server(KMS)、HDFS實現(xiàn)了一個透明的,端到端的加密方式、長期存在的服務(wù)可以在YARN中運行、支持Docker容器中的本機應(yīng)用程序等。
Hadoop 2 的逐步更新是不是意味著Hadoop已經(jīng)走向成熟的企業(yè)級技術(shù)了呢?其實它還有很長的路要走。
SQL-on-Hadoop
如果不能使用SQL語言,Hadoop無疑是在構(gòu)建下一個數(shù)據(jù)孤島,因此SQL-on-Hadoop獲得了越來越多的關(guān)注。
Apache Hive 0.13發(fā)布。Hive是最早的基于Hadoop的SQL引擎。
Apache 基金會宣布Apache Drill升級成為基金會的頂級項目。Drill包含SQL解析器,兼容SQL環(huán)境和Hive。
除此之外,還有很多SQL引擎可供選擇。
數(shù)據(jù)庫領(lǐng)域初創(chuàng)公司Splice Machine上周宣布,發(fā)布SQL-on-Hadoop數(shù)據(jù)庫,官方宣稱它可以在HDFS(Hadoop分布式文件系統(tǒng))中運行SQL查詢和ACID事務(wù)。
喧囂與躁動
Hadoop市場從未像今年這樣熱鬧過,商用版Hadoop供應(yīng)商紛紛抱大腿,很多傳統(tǒng)廠商也來分一杯羹。
Cloudera
因特爾放棄了自己研發(fā)的Hadoop發(fā)行版,轉(zhuǎn)而支持Cloudera,以7.4億美元收購Cloudera 18%的股份。
紅帽和Cloudera聯(lián)盟,一起開發(fā)包括數(shù)據(jù)集成和應(yīng)用開發(fā)工具,以及數(shù)據(jù)平臺在內(nèi)的軟件解決方案。
Cloudera成立中國分公司,取名“肯睿(上海)軟件有限公司”,正式入華。
Hortonworks
惠普投資5000萬美元與Hortonworks達(dá)成戰(zhàn)略性合作關(guān)系,二者聯(lián)手開發(fā)Hadoop技術(shù),使其在惠普的Haven大數(shù)據(jù)平臺上運行。
EMC分拆公司Pivotal和Hortonworks合作,聯(lián)手打造Hadoop標(biāo)準(zhǔn)管理工具Apache Ambari。
Teradata
Teradata收購數(shù)據(jù)咨詢公司Think Big Analytics,借此獲得Hadoop業(yè)務(wù)能力
Teradata與MapR合作,獲得MapR軟件、專業(yè)服務(wù)及客戶支持服務(wù)的經(jīng)銷權(quán),并作為同時使用Teradata及MapR解決方案客戶的單點聯(lián)系方提供服務(wù)。
Oracle
Oracle最新推出的SQL擴展方案——Oracle大數(shù)據(jù)SQL(Big Data SQL)能實現(xiàn)一條SQL查詢來從Cloudera Hadoop(CDH)和Oracle NoSQL數(shù)據(jù)庫中調(diào)取數(shù)據(jù),同時也支持Exadata上運行的Oracle關(guān)系型數(shù)據(jù)庫。
應(yīng)用案例
很多CIO非常關(guān)心Hadoop技術(shù)發(fā)展到什么程度了,還有沒有成熟。其實CIO更應(yīng)該關(guān)心的是自己的企業(yè)發(fā)展到什么程度了,適不適合使用Hadoop。沒有完全成熟的技術(shù),只有能否滿足業(yè)務(wù)需求的產(chǎn)品。很多公司都應(yīng)用了Hadoop技術(shù),來看看今年曝光的應(yīng)用案例吧!
美國電商eBay每天要處理100PB的數(shù)據(jù),其中包括50TB的機器數(shù)據(jù)。它采用了三層平臺戰(zhàn)略,其中第三層平臺就是Hadoop,eBay部署了兩個2萬節(jié)點的Hadoop集群,能處理80PB的數(shù)據(jù)。
數(shù)字媒體軟件供應(yīng)商Adobe公司運用SAP Data Service將Hadoop數(shù)據(jù)加載到SAP內(nèi)存數(shù)據(jù)庫HANA上。
思科首席數(shù)據(jù)架構(gòu)師Bhargava帶領(lǐng)他的團隊從事開發(fā)Hadoop的工作,一些Hadoop用戶案例已經(jīng)投入市場,比如集成線下和線上客戶信息。雖然現(xiàn)在Hadoop的規(guī)模還很小,但在接下來兩年里,它會呈指數(shù)增長。