可憐的MapReduce,直到2013年末,都是Hadoop系統(tǒng)中的關(guān)鍵一環(huán),在這個開源大數(shù)據(jù)處理框架中,它既是集群的資源管理器,又作為主要編程手段和處理環(huán)境存在。但如今看來,情況正在發(fā)生變化。
Apache Software Foundation的Hadoop 2版本添加了一個名叫YARN的新技術(shù),取代了MapReduce的資源管理角色,并將Hadoop發(fā)展成了超越MapReduce批處理作業(yè)的應(yīng)用程序。目前有很多廠商推出了SQL-on-Hadoop工具,讓用戶編寫針對Hadoop數(shù)據(jù)分析查詢的標(biāo)準(zhǔn)SQL,以代替MapReduce。Spark 處理引擎也應(yīng)運而生,其支持者聲稱它運行批處理作業(yè)的速度比MapReduce快100多倍,并且支持時下流行的高級編程語言,如Java和Python 等。
隨著上述新興技術(shù)的出現(xiàn),MapReduce已經(jīng)不再像以往那么重要,就像一個古老的蒸汽引擎被迫讓位于更時尚的柴油機車一樣。這個現(xiàn)實在紐約 Strata + Hadoop World 2015 會議后更為凸顯,在此次會議中,與會者廣泛討論了擺脫MapReduce的議題。用一位發(fā)言人的話說,“擺脫MapReduce,盡快和盡可能多地擺脫。”
MapReduce Geospatial 的出現(xiàn),將這一“去MapReduce化”的情緒推向了頂峰,它是一個開源工具包,用于處理衛(wèi)星圖像和其他大型的柵格數(shù)據(jù)集。它促使開發(fā)者轉(zhuǎn)變原有被稱為 MrGeo的開發(fā)技術(shù),從MapReduce轉(zhuǎn)而使用Spark。這樣做的結(jié)果是獲得了更高的性能,且代碼庫容量減少了25%,衛(wèi)星成像分析公司(DigitalGlobe)的分析主管Smith 承認(rèn),是時候為工具包起一個新的名字了。
不僅僅是MapReduce, HDFS (Hadoop分布式文件系統(tǒng))——Hadoop的其他核心組成部分的代表,也有可能被取代。在Strata 會議上,Hadoop供應(yīng)分銷商的領(lǐng)頭羊Cloudera公布了一種名為Kudu的柱狀數(shù)據(jù)存儲,作為HDFS在實時流數(shù)據(jù)分析方面的一個潛在替代技術(shù)。 Hortonworks,另一個Hadoop供應(yīng)商,推出了一個單獨的軟件來管理不同系統(tǒng)之間的數(shù)據(jù)流,HDFS的地位受到了威脅。
MapReduce和HDFS很快就會消失。盡管目前有很多應(yīng)用程序基于二者構(gòu)建,大量的Hadoop用戶仍會使用它們來完成一些大數(shù)據(jù)處理的需要。但以后部署Hadoop系統(tǒng)將不再需要這兩種技術(shù)的情況將不可避免。
他們真的還會是Hadoop集群嗎?這是一個生死攸關(guān)的問題。但Hadoop的進(jìn)化,或者身份危機也許是大數(shù)據(jù)時代帶來的易變性數(shù)據(jù)管理環(huán)境所引發(fā)變革的一個縮影。各種關(guān)系數(shù)據(jù)庫和SQL一枝獨秀的時代一去不返了。我們生活在一個多元的世界,這個世界存在各種技術(shù),滿足著不同的數(shù)據(jù)處理和分析的需要。當(dāng)然關(guān)系型軟件也在其中,此外還包括由Hadoop,Spark,NoSQL數(shù)據(jù)庫以及其他大數(shù)據(jù)工具組成的龐大且不斷擴(kuò)張的生態(tài)系統(tǒng)。Hadoop處于這個生態(tài)系統(tǒng)的中心位置,但這個位置并不是永久的,很可能在將來的某一天被其他技術(shù)所取代。