亚洲AV成人无码尤物精品,四虎影视在线看免费完整版,亚洲一码二码三码区别在哪

革命Hadoop，Spark攪熱云計算大數(shù)據(jù)市場

責任編輯：jacky

2014-06-17 08:45:50

摘自：IT之家網(wǎng)站

Spark是基于內(nèi)存，是云計算領(lǐng)域的繼Hadoop之后的下一代的最熱門的通用的并行計算框架開源項目，尤其出色的支持Interactive Query、流計算、圖計算等。據(jù)Spark亞太研究院院長及首席專家王家林介紹

據(jù)相關(guān)數(shù)據(jù)顯示，2013年上半年中國手機網(wǎng)民規(guī)模已經(jīng)突破5億大關(guān)，預(yù)計14年第一季度，國內(nèi)手機網(wǎng)民規(guī)模將超PC端，手機用戶超過10億，3G用戶持續(xù)增長，以及4G的強勢勁頭，都催生移動大數(shù)據(jù)的爆發(fā)。大量新數(shù)據(jù)無時無刻不在涌現(xiàn)，移動互聯(lián)網(wǎng)正影響著人類生活的方方面面。

這將是一個前所未有的時代。所有的公司和機構(gòu)都已經(jīng)或者正在成為移動互聯(lián)網(wǎng)組織。所有的公司和機構(gòu)也終將是云計算大數(shù)據(jù)組織。移動互聯(lián)網(wǎng)及云計算大數(shù)據(jù)的浪潮正在并將最終徹底的變革所有的公司和機構(gòu)的架構(gòu)模式、生產(chǎn)模式、服務(wù)模式以及管理模式。

Spark—新一代全能大數(shù)據(jù)計算平臺崛起

隨著大數(shù)據(jù)相關(guān)技術(shù)和產(chǎn)業(yè)的逐漸成熟，單個組織內(nèi)往往需要同時進行多種類型的大數(shù)據(jù)分析作業(yè)：傳統(tǒng)Hadoop MapReduce最為擅長的是離線海量數(shù)據(jù)的統(tǒng)計分析，由于Hadoop本身的特性，導(dǎo)致使用Hadoop處理大數(shù)據(jù)的結(jié)果的獲取往往是要延遲在幾分鐘甚至是幾個小時，這在很多場景下都是不可接受的。更為重要的是在Spark出現(xiàn)前，要在一個組織內(nèi)同時完成各種機器學習算法為代表的迭代型計算、流式計算、社交網(wǎng)絡(luò)中常用的圖計算、SQL關(guān)系查詢、交互式即席查詢等數(shù)種大數(shù)據(jù)分析任務(wù)，就不得不與多套獨立的系統(tǒng)打交道，一方面引入了不容小覷的運維復(fù)雜性，另一方面還免不了要在多個系統(tǒng)間頻繁進行代價高昂的數(shù)據(jù)轉(zhuǎn)儲。

Spark是基于內(nèi)存，是云計算領(lǐng)域的繼Hadoop之后的下一代的最熱門的通用的并行計算框架開源項目，尤其出色的支持Interactive Query、流計算、圖計算等。

Spark在機器學習方面有著無與倫比的優(yōu)勢，特別適合需要多次迭代計算的算法。同時Spark的擁有非常出色的容錯和調(diào)度機制，確保系統(tǒng)的穩(wěn)定運行，Spark目前的發(fā)展理念是通過一個計算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多種功能于一個項目中，具有非常好的易用性。

Spark無可比擬的優(yōu)勢，占據(jù)云計算大數(shù)據(jù)領(lǐng)域霸主地位

Spark是發(fā)源于美國加州大學伯克利分校AMPLab的集群計算平臺，它立足于內(nèi)存計算，性能超過Hadoop百倍，從多迭代批量處理出發(fā)，兼收并蓄數(shù)據(jù)倉庫、流處理和圖計算等多種計算范式，是罕見的全能選手。Spark當下已成為Apache基金會的頂級開源項目，擁有著龐大的社區(qū)支持（活躍開發(fā)者人數(shù)已超過Hadoop MapReduce），技術(shù)也逐漸走向成熟。

作為下一代云計算及大數(shù)據(jù)的核心技術(shù)，Spark是可以革命Hadoop的目前唯一替代者，能夠做Hadoop做的一切事情，同時速度比Hadoop快了100倍以上。甚至在Hadoop最擅長的離線數(shù)據(jù)統(tǒng)計分析領(lǐng)域，Spark比Hadoop也至少快了一個幾何級數(shù)；Spark另外一個無可取代的優(yōu)勢是：“One Stack to rule them all”，Spark采用一個統(tǒng)一的技術(shù)堆棧解決了云計算大數(shù)據(jù)包括如流處理、圖技術(shù)、機器學習、NoSQL查詢等方面的所有核心問題，具有完善的生態(tài)系統(tǒng)；這直接奠定了其一統(tǒng)云計算大數(shù)據(jù)領(lǐng)域的霸主地位；

Spark應(yīng)用現(xiàn)狀及未來發(fā)展

目前SPARK已經(jīng)構(gòu)建了自己的整個大數(shù)據(jù)處理生態(tài)系統(tǒng)，如流處理、圖技術(shù)、機器學習、NoSQL查詢等方面都有自己的技術(shù)，并且是Apache頂級Project，可以預(yù)計的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會有爆發(fā)式的增長。

國外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark。甚至連Hadoop的早期主要貢獻者Yahoo現(xiàn)在也在多個項目中部署使用Spark；國內(nèi)的淘寶、優(yōu)酷土豆、網(wǎng)易、Baidu、騰訊等已經(jīng)使用Spark技術(shù)用于自己的商業(yè)生產(chǎn)系統(tǒng)中，國內(nèi)外的應(yīng)用開始越來越廣泛。

前段時間，mahout宣布了一個重大的消息，mahout社區(qū)表示從現(xiàn)在起，他們將不再接受任何以MapReduce形式實現(xiàn)的算法，但是他們?nèi)匀粚⒕S護那些常用算法的MapReduce實現(xiàn)。另一方面，mahout宣布新的算法將基于Spark實現(xiàn)，他們相信Spark更豐富的編程模型及更優(yōu)秀的性能將對mahout有著至關(guān)重要的作用。另一方面，Cloudera的機器學習框架oryx的執(zhí)行引擎也會替換成Spark，之前oryx也是使用mapreduce。種種跡象表明，Spark已經(jīng)開始各種屠殺了，非常有希望成為新一代分布式機器學習事實上的標準。讓我們拭目以待。Spark正在逐漸走向成熟，并在這個領(lǐng)域扮演更加重要的角色。

Spark發(fā)展迅速，人才培養(yǎng)將成為關(guān)注熱點

Spark技術(shù)的快速發(fā)展及應(yīng)用普及，也帶來了另外一個倍受企業(yè)關(guān)注的問題，即Spark人才的培養(yǎng)。由于目前Spark技術(shù)在企業(yè)的應(yīng)用，仍然屬于一個起步的階段，在專業(yè)人才上極度匱乏。目前國內(nèi)專注在Spark人才培養(yǎng)的機構(gòu)和課程非常罕見。

據(jù)Spark亞太研究院院長及首席專家王家林介紹，Spark亞太研究院致力于Spark技術(shù)的研究及推廣，在幫助企業(yè)規(guī)劃、部署、開發(fā)、培訓(xùn)和使用Spark為核心，同時提供Spark源碼研究和應(yīng)用技術(shù)訓(xùn)練。

在推動國內(nèi)Spark人才培養(yǎng)上，Spark研究院在完成了對Spark源碼的徹底研究的同時不斷在實際環(huán)境中使用Spark的各種特性的基礎(chǔ)之上，推出了國內(nèi)首個Spark訓(xùn)練體系：

《18小時內(nèi)掌握Spark》、《精通Spark：Spark內(nèi)核剖析、源碼解讀、性能優(yōu)化和商業(yè)案例實戰(zhàn)》、《Spark企業(yè)級開發(fā)最佳實踐》、《Spark 1.0.0企業(yè)級開發(fā)動手》、《Spark架構(gòu)案例鑒賞》、《精通Spark的開發(fā)語言：Scala最佳實踐》，幫助企業(yè)，從入門到精通到商業(yè)實戰(zhàn)，完成Spark人才的快速培養(yǎng)。了解Spark最新課程（www.sparkinchina.com/）。

Spark Hadoop 迭代計算 AMPLab