Spark點燃近實時大數(shù)據(jù)之火

責(zé)任編輯:editor007

2015-04-01 17:40:00

摘自:網(wǎng)界網(wǎng)

在用戶體驗達(dá)不到所宣傳效果之后,IT領(lǐng)域中必然會隨之出現(xiàn)“新的熱門事件”。雖然Spark還無法取代MapReduce,但是它們最終將成為大數(shù)據(jù)分析領(lǐng)域的一部分

在用戶體驗達(dá)不到所宣傳效果之后,IT領(lǐng)域中必然會隨之出現(xiàn)“新的熱門事件”。目前的新熱門事件涉及大數(shù)據(jù)和對海量分布式數(shù)據(jù)的快速精準(zhǔn)分析。

在目前的大數(shù)據(jù)領(lǐng)域中,Hadoop被作為存儲和分配海量數(shù)據(jù)的軟件,而MapReduce則被作為處理這些海量數(shù)據(jù)的引擎。兩者整合在一起可以批處理一些對時效性沒有過高要求的數(shù)據(jù)。

那么對于近實時大數(shù)據(jù)分析應(yīng)當(dāng)怎么辦呢?作為最先進(jìn)的下一代開源技術(shù)Apache Spark已經(jīng)為視頻、傳感器、交易等流數(shù)據(jù)的分析、機器學(xué)習(xí)、預(yù)測建模創(chuàng)造了條件。它們可以用于基因組研究、封包檢測、惡意軟件探測和物聯(lián)網(wǎng)。

Spark不僅可像MapReduce那樣用于批處理,對于需要與數(shù)據(jù)集進(jìn)行大量交互的算法,Spark還可以將這些運算的中間結(jié)果存儲在緩存中。相比之下,在帶入系統(tǒng)進(jìn)行下一步處理前,MapReduce必須要將每步運算的結(jié)果寫入磁盤。這種在內(nèi)存中對彈性分布式數(shù)據(jù)集(RDD)的快速處理可以說是Apache Spark的核心能力。

Salient Federal Solutions公司一直致力于使用Spark為政府機構(gòu)開發(fā)分析產(chǎn)品。該公司預(yù)測分析主任Dave Vennergrund稱:“一旦執(zhí)行對數(shù)據(jù)集的操作,它們能夠進(jìn)行相互連接,從而使得轉(zhuǎn)換能夠被迅速完成。加之它們能夠同時跨多臺機器做這一工作,這使得我們能夠迅速做出反應(yīng)。”

Spark的支持者認(rèn)為,與競爭對手相比,Spark在擴展性和速度方面都具有優(yōu)勢。突出表現(xiàn)為在小數(shù)據(jù)集升級為拍字節(jié)后,它們?nèi)匀荒軌虺錾毓ぷ鳌T?014年11月份的基準(zhǔn)競賽中,Apache Spark整理100太字節(jié)數(shù)據(jù)的速度比Hadoop MapReduce快了三倍,并且其機器集群的規(guī)模是MapReduce的十分之一。

據(jù)軟件開發(fā)公司Typesafe近期觀察顯示,對Spark感興趣的機構(gòu)在數(shù)量上正在不斷增長。數(shù)據(jù)顯示,目前13%的受訪者正在使用Spark,約30%的受訪者正在對Spark進(jìn)行評估,20%的受訪者計劃在今年某一時候開始使用Spark。另有6%的受訪者希望在2016年或更晚時候使用 Spark。此外,28%的受訪者還對Spark不了解,認(rèn)為它們還不成熟。

Salient 的數(shù)據(jù)分析中心副總裁Cindy Walker稱:“對于政府來說,他們正在進(jìn)行測試與評估。早期部署者都是那些有沙盒和研發(fā)預(yù)算的部門。我們的許多客戶現(xiàn)在對大數(shù)據(jù)部署、內(nèi)存分析、流解決方案都還沒有劃定能力底線。因此,我們目前正在使用Spark幫助他們設(shè)定合理的目標(biāo)。”

雖然Spark還無法取代MapReduce,但是它們最終將成為大數(shù)據(jù)分析領(lǐng)域的一部分,推動數(shù)據(jù)被以更快的速度處理。

Apache Spark生態(tài)環(huán)境有以下幾個組成部分:

Spark Core:平臺的底層執(zhí)行引擎,支持大量應(yīng)用以及Java、Scala和Python等應(yīng)用程序接口(API)。

Spark SQL(結(jié)構(gòu)化查詢語言) :用戶可通過其探究數(shù)據(jù)。

Spark Streaming:可對來自推特的流數(shù)據(jù)進(jìn)行分析,并且讓Spark具備批處理能力。

機器學(xué)習(xí)庫 (MLlib):一種分布式機器學(xué)習(xí)架構(gòu),交付高質(zhì)量算法的速度比MapReduce快100倍。

Graph X:幫助用戶以圖形的形式表現(xiàn)文本和列表數(shù)據(jù),找出數(shù)據(jù)中的不同關(guān)系。

SparkR:針對R統(tǒng)計語言的程序包。R用戶可通過其在R殼中使用Spark功能。

BlinkDB:大型并行引擎。允許用戶對海量數(shù)據(jù)執(zhí)行類SQL查詢,在速度重要性高于精確性的情況下非常有用。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號