開源引擎Spark是否言過其實(shí)?

責(zé)任編輯:editor005

作者:Jack Vaughan

2015-06-03 13:57:45

摘自:TechTarget中國(guó)

Apache Spark是一個(gè)開源數(shù)據(jù)處理引擎,2010年產(chǎn)生于加利福尼亞大學(xué)伯克利分校的實(shí)驗(yàn)室,之后躋身大數(shù)據(jù)產(chǎn)品之列。Spark發(fā)展年表:2009 計(jì)算機(jī)科學(xué)家Matei Zaharia在加利福尼亞大學(xué)伯克利分校實(shí)驗(yàn)室創(chuàng)建了Spark作為他的博士科研項(xiàng)目 

Apache Spark是一個(gè)開源數(shù)據(jù)處理引擎,2010年產(chǎn)生于加利福尼亞大學(xué)伯克利分校的實(shí)驗(yàn)室,之后躋身大數(shù)據(jù)產(chǎn)品之列。去年五月,Apache軟件基金會(huì)發(fā)布了Spark 1.0.0版本。大數(shù)據(jù)供應(yīng)商格外看好Spark,認(rèn)為它更快、更有彈性,可以替代MapReduce處理和分析Hadoop數(shù)據(jù)。

Spark指出了一些Hadoop最初處理引擎MapReduce的一些缺點(diǎn),Spark的核心是內(nèi)存計(jì)算,據(jù)稱運(yùn)行批處理應(yīng)用程序可以比MapReduce快100倍。Spark也是更通用的技術(shù),適合加在批處理上的機(jī)器學(xué)習(xí)、流數(shù)據(jù)、圖型處理和SQL查詢應(yīng)用程序。它使用高級(jí)API和指令集,和MapReduce相比,Spark讓應(yīng)用程序開發(fā)更簡(jiǎn)單。

不過,目前廠商的炒作仍多于Spark的實(shí)際應(yīng)用,Spark技術(shù)還不成熟。比如把它和SQL連接的工具很新。它的內(nèi)存能力對(duì)很多用戶來(lái)講價(jià)格昂貴。它的API沒有MapReduce那么復(fù)雜,這往往讓企業(yè)開發(fā)者無(wú)所適從。Spark還有很長(zhǎng)的路要走。

Spark發(fā)展年表:

2009 計(jì)算機(jī)科學(xué)家Matei Zaharia在加利福尼亞大學(xué)伯克利分校實(shí)驗(yàn)室創(chuàng)建了Spark作為他的博士科研項(xiàng)目

2010 Spark開源,它在代碼管理網(wǎng)站GitHub吸引了開發(fā)社區(qū)

2013 該項(xiàng)目被捐贈(zèng)給Apache軟件基金會(huì),Spark峰會(huì)在舊金山舉行,有450名參會(huì)者

2014 Apache發(fā)布了Spark1.0.0,之后又發(fā)布了兩版。大數(shù)據(jù)供應(yīng)商Databricks(Zaharia是聯(lián)合創(chuàng)始人)使用Spark創(chuàng)建了新的大規(guī)模數(shù)據(jù)處理記錄——23分鐘處理100TB的數(shù)據(jù)

2015 Spark東部峰會(huì)在紐約舉行

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)