革命Hadoop,Spark攪熱云計算大數(shù)據(jù)市場

責任編輯:jacky

2014-06-17 08:45:50

摘自:IT之家網(wǎng)站

Spark是基于內(nèi)存,是云計算領(lǐng)域的繼Hadoop之后的下一代的最熱門的通用的并行計算框架開源項目,尤其出色的支持Interactive Query、流計算、圖計算等。據(jù)Spark亞太研究院院長及首席專家王家林介紹

據(jù)相關(guān)數(shù)據(jù)顯示,2013年上半年中國手機網(wǎng)民規(guī)模已經(jīng)突破5億大關(guān),預(yù)計14年第一季度,國內(nèi)手機網(wǎng)民規(guī)模將超PC端,手機用戶超過10億,3G用戶持續(xù)增長,以及4G的強勢勁頭,都催生移動大數(shù)據(jù)的爆發(fā)。大量新數(shù)據(jù)無時無刻不在涌現(xiàn),移動互聯(lián)網(wǎng)正影響著人類生活的方方面面。

這將是一個前所未有的時代。所有的公司和機構(gòu)都已經(jīng)或者正在成為移動互聯(lián)網(wǎng)組織。所有的公司和機構(gòu)也終將是云計算大數(shù)據(jù)組織。移動互聯(lián)網(wǎng)及云計算大數(shù)據(jù)的浪潮正在并將最終徹底的變革所有的公司和機構(gòu)的架構(gòu)模式、生產(chǎn)模式、服務(wù)模式以及管理模式。

Spark—新一代全能大數(shù)據(jù)計算平臺崛起

隨著大數(shù)據(jù)相關(guān)技術(shù)和產(chǎn)業(yè)的逐漸成熟,單個組織內(nèi)往往需要同時進行多種類型的大數(shù)據(jù)分析作業(yè):傳統(tǒng)Hadoop MapReduce最為擅長的是離線海量數(shù)據(jù)的統(tǒng)計分析,由于Hadoop本身的特性,導(dǎo)致使用Hadoop處理大數(shù)據(jù)的結(jié)果的獲取往往是要延遲在幾分鐘甚至是幾個小時,這在很多場景下都是不可接受的。更為重要的是在Spark出現(xiàn)前,要在一個組織內(nèi)同時完成各種機器學習算法為代表的迭代型計算、流式計算、社交網(wǎng)絡(luò)中常用的圖計算、SQL關(guān)系查詢、交互式即席查詢等數(shù)種大數(shù)據(jù)分析任務(wù),就不得不與多套獨立的系統(tǒng)打交道,一方面引入了不容小覷的運維復(fù)雜性,另一方面還免不了要在多個系統(tǒng)間頻繁進行代價高昂的數(shù)據(jù)轉(zhuǎn)儲。

Spark是基于內(nèi)存,是云計算領(lǐng)域的繼Hadoop之后的下一代的最熱門的通用的并行計算框架開源項目,尤其出色的支持Interactive Query、流計算、圖計算等。

Spark在機器學習方面有著無與倫比的優(yōu)勢,特別適合需要多次迭代計算的算法。同時Spark的擁有非常出色的容錯和調(diào)度機制,確保系統(tǒng)的穩(wěn)定運行,Spark目前的發(fā)展理念是通過一個計算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多種功能于一個項目中,具有非常好的易用性。

Spark無可比擬的優(yōu)勢,占據(jù)云計算大數(shù)據(jù)領(lǐng)域霸主地位

Spark是發(fā)源于美國加州大學伯克利分校AMPLab的集群計算平臺,它立足于內(nèi)存計算,性能超過Hadoop百倍,從多迭代批量處理出發(fā),兼收并蓄數(shù)據(jù)倉庫、流處理和圖計算等多種計算范式,是罕見的全能選手。Spark當下已成為Apache基金會的頂級開源項目,擁有著龐大的社區(qū)支持(活躍開發(fā)者人數(shù)已超過Hadoop MapReduce),技術(shù)也逐漸走向成熟。

作為下一代云計算及大數(shù)據(jù)的核心技術(shù),Spark是可以革命Hadoop的目前唯一替代者,能夠做Hadoop做的一切事情,同時速度比Hadoop快了100倍以上。甚至在Hadoop最擅長的離線數(shù)據(jù)統(tǒng)計分析領(lǐng)域,Spark比Hadoop也至少快了一個幾何級數(shù);Spark另外一個無可取代的優(yōu)勢是:“One Stack to rule them all”,Spark采用一個統(tǒng)一的技術(shù)堆棧解決了云計算大數(shù)據(jù)包括如流處理、圖技術(shù)、機器學習、NoSQL查詢等方面的所有核心問題,具有完善的生態(tài)系統(tǒng);這直接奠定了其一統(tǒng)云計算大數(shù)據(jù)領(lǐng)域的霸主地位;

Spark應(yīng)用現(xiàn)狀及未來發(fā)展

目前SPARK已經(jīng)構(gòu)建了自己的整個大數(shù)據(jù)處理生態(tài)系統(tǒng),如流處理、圖技術(shù)、機器學習、NoSQL查詢等方面都有自己的技術(shù),并且是Apache頂級Project,可以預(yù)計的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會有爆發(fā)式的增長。

國外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark。甚至連Hadoop的早期主要貢獻者Yahoo現(xiàn)在也在多個項目中部署使用Spark;國內(nèi)的淘寶、優(yōu)酷土豆、網(wǎng)易、Baidu、騰訊等已經(jīng)使用Spark技術(shù)用于自己的商業(yè)生產(chǎn)系統(tǒng)中,國內(nèi)外的應(yīng)用開始越來越廣泛。

前段時間,mahout宣布了一個重大的消息,mahout社區(qū)表示從現(xiàn)在起,他們將不再接受任何以MapReduce形式實現(xiàn)的算法,但是他們?nèi)匀粚⒕S護那些常用算法的MapReduce實現(xiàn)。另一方面,mahout宣布新的算法將基于Spark實現(xiàn),他們相信Spark更豐富的編程模型及更優(yōu)秀的性能將對mahout有著至關(guān)重要的作用。另一方面,Cloudera的機器學習框架oryx的執(zhí)行引擎也會替換成Spark,之前oryx也是使用mapreduce。種種跡象表明,Spark已經(jīng)開始各種屠殺了,非常有希望成為新一代分布式機器學習事實上的標準。讓我們拭目以待。Spark正在逐漸走向成熟,并在這個領(lǐng)域扮演更加重要的角色。

Spark發(fā)展迅速,人才培養(yǎng)將成為關(guān)注熱點

Spark技術(shù)的快速發(fā)展及應(yīng)用普及,也帶來了另外一個倍受企業(yè)關(guān)注的問題,即Spark人才的培養(yǎng)。由于目前Spark技術(shù)在企業(yè)的應(yīng)用,仍然屬于一個起步的階段,在專業(yè)人才上極度匱乏。目前國內(nèi)專注在Spark人才培養(yǎng)的機構(gòu)和課程非常罕見。

據(jù)Spark亞太研究院院長及首席專家王家林介紹,Spark亞太研究院致力于Spark技術(shù)的研究及推廣,在幫助企業(yè)規(guī)劃、部署、開發(fā)、培訓(xùn)和使用Spark為核心,同時提供Spark源碼研究和應(yīng)用技術(shù)訓(xùn)練。

在推動國內(nèi)Spark人才培養(yǎng)上,Spark研究院在完成了對Spark源碼的徹底研究的同時不斷在實際環(huán)境中使用Spark的各種特性的基礎(chǔ)之上,推出了國內(nèi)首個Spark訓(xùn)練體系:

《18小時內(nèi)掌握Spark》、《精通Spark:Spark內(nèi)核剖析、源碼解讀、性能優(yōu)化和商業(yè)案例實戰(zhàn)》、《Spark企業(yè)級開發(fā)最佳實踐》、《Spark 1.0.0企業(yè)級開發(fā)動手》、《Spark架構(gòu)案例鑒賞》、《精通Spark的開發(fā)語言:Scala最佳實踐》,幫助企業(yè),從入門到精通到商業(yè)實戰(zhàn),完成Spark人才的快速培養(yǎng)。了解Spark最新課程(www.sparkinchina.com/)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號