Spark2.0:真實力還是純套路?

責任編輯:editor006

作者:楊宏玉翻譯

2016-07-04 16:02:32

摘自:TechTarget中國

在Databricks的Spark峰會上,支持結(jié)構(gòu)化處理和SQL 2003的Spark2 0 呈現(xiàn)在眾人面前,此外,R-to-Spark接口也在該峰會上嶄露頭角。

在Databricks的Spark峰會上,支持結(jié)構(gòu)化處理和SQL 2003的Spark2.0 呈現(xiàn)在眾人面前,此外,R-to-Spark接口也在該峰會上嶄露頭角。


 

近日在舊金山舉行的Spark峰會上,Spark發(fā)起人Databricks 展示了這款通用分析引擎Spark的2.0版本,并介紹了該版本的詳細更新細節(jié)。包括IBM、Microsoft在內(nèi)的一眾公司都參與到了Spark相關(guān)產(chǎn)品的推廣大潮中。

Apache Spark 2.0將于在近期發(fā)布,多家公司表示,軟件可能還不夠穩(wěn)定。但Databricks公司的CTO表示Matei Zaharia認為,Spark 2.0“值得一試”。

Zaharia在加州大學伯克利分校就讀研究生期間編寫了Spark的核心代碼,并為了聯(lián)合創(chuàng)建Databricks公司,放棄了MIT的工作。他表示,Spark 2.0包含超過2000個補丁,這些補丁來自于280個貢獻者。他強調(diào)的一些更新包括:為了提升Spark平臺開發(fā)的效率所做的編碼技術(shù)改進,對SQL 2003和結(jié)構(gòu)化流的支持等。

Databricks將新版本Spark基礎(chǔ)引擎定義為智能Spark編譯器——與高級API一起,開放給大型Spark開發(fā)組,Zaharia說道。對于陷入困境的IT經(jīng)理來說,這將非常有價值,因為目前掌握Spark 技術(shù)的開發(fā)人員薪資普遍過高。

Zaharia引用了Stack Overflow最近的一項調(diào)查,該調(diào)查包含13540年美國受訪者,這些受訪者都認為Spark相關(guān)開發(fā)人員的薪資相對較高。調(diào)查顯示,Spark技能與Scala語言緊密聯(lián)系,Spark的相關(guān)技術(shù)用Scala語言編寫,企業(yè)平均每年要為每個開發(fā)人員花費125000美元。

構(gòu)建Lambda架構(gòu)

簡化那些繁瑣的數(shù)據(jù)流開發(fā),也是Spark廣泛應(yīng)用的前景之一。

Spark更新后,軟件的核心貢獻者選擇了一種通用流處理方法,至少在一定程度上緩解了程序員對流的不適應(yīng)。Spark保留了mini-batch流處理方法,這引來了一些倡導其他流處理方法人員的詬病。

流處理經(jīng)常被認為是Spark的一個亮點,但它面臨著來自專門流處理項目的競爭,如Storm,,F(xiàn)link 和Heron,這些公司一些產(chǎn)品能夠提供比Spark更低的性能延遲。

Spark 2.0的結(jié)構(gòu)化流處理提供了一整套API,可以放置在Lambda architecture中(Lambda architecture表示批處理和流處理的結(jié)合)。

“Spark支持我們最常見的通用流處理技術(shù),”Zaharia說,“我們所知道的大多數(shù)用戶集成了不同的處理模式。”新的Spark流處理API與Spark SQL API有著更多的相似之處,這讓Spark框架更容易獲得開發(fā)者社區(qū)的支持。

然而Zaharia提醒道,數(shù)據(jù)流大范圍使用的情形還尚未出現(xiàn)。獨立分析師和行業(yè)觀察者Thomas Dinsmore表示,Databricks 轉(zhuǎn)向混合批處理和實時編程模型的舉動應(yīng)該會吸引很多感興趣的受眾。

“Spark結(jié)構(gòu)化流試圖將流處理融入到更廣泛的環(huán)境中。事實上,目前還沒有人直接從流中洞察數(shù)據(jù),”他說道。

“通常,流數(shù)據(jù)與歷史趨勢數(shù)據(jù)應(yīng)結(jié)合使用,”他說?,F(xiàn)實世界的應(yīng)用情況即是如此,例如信用卡欺詐檢測。

Dinsmore 表示,Spark最新版本的更新能夠勝任這一任務(wù),即使面對其他同類型產(chǎn)品的競爭也絲毫不落下風。

“Spark并不需要一切都做到最好”,它只需要沒有明顯短板即可。

Spark的擴散

與此同時。Apache Spark繼續(xù)作為其他供應(yīng)商的產(chǎn)品的一部分。這些供應(yīng)商的范圍也很廣,既有初創(chuàng)公司也有主流廠商。

在這次峰會上,微軟正式在Azure HDInsight平臺推出了Spark,它將和Hortonworks一起構(gòu)建。無論是云端或本地的HDInsigh,都已支持R 服務(wù)器。而為了支持R服務(wù)器,微軟于2015年收購了R語言專業(yè)公司Revolution Analytics。

微軟的目標之一是通過提升Spark分布式平臺對R語言的支持,擴大開發(fā)者的范圍,另一目標則是提升計算效率。

“通過R與Spark的結(jié)合,我們能讓數(shù)據(jù)科學家繼續(xù)使用他們熟悉的R語言,同時允許他們利用Spark的擴展性來運行代碼,”微軟高級產(chǎn)品營銷經(jīng)理Oliver Chiu說道。性能與工作負載相關(guān),Spark上的R服務(wù)器可以加快機器學習模型的訓練速度。

“微軟將其R服務(wù)器產(chǎn)品和Spark重組是一個很好的舉動,”Dinsmore說,“他們已經(jīng)創(chuàng)建了一個高性能的平臺。”

對R的集成也遇到了一定的困難,其應(yīng)用到Hadoop MapReduce框架中時,性能并不理想,但與Spark的集成有助于解決這一問題,曾擔任Revolution Analytics產(chǎn)品管理主管Dinsmore表示。這反映了一個廣泛的共識,那就是Spark相對于Hadoop MapReduce框架,性能有了明顯的提升。

你精通數(shù)據(jù)科學么?

IBM近期公布了一套Apache Spark的開發(fā)環(huán)境。它運行在IBM Bluemix云平臺,能夠滿足精通R編程語言的數(shù)據(jù)科學家的需要。這項服務(wù)將專注于對SparkR,Spark SQL和Spark ML工具集的支持。

R語言的受眾需要更多工具,以擴大開發(fā)人員的范圍,IBM分析部門負責產(chǎn)品開發(fā)的副總裁Rod Thomas表示。

Tomas說,“我們想讓數(shù)據(jù)科學家能夠更容易地構(gòu)建R模型,然后在Spark上運行它們”。R在數(shù)據(jù)科學家社區(qū)是一個重要的工具,讓Spark與R協(xié)同工作是一個挑戰(zhàn)。“到目前為止,R在Spark并沒有受到足夠的重視,”Thomas說道。

Spark峰會上,MapRTechnologies發(fā)布了一個Converged Data Platform的新版本,這個版本是專門應(yīng)用于Spark的。該版本使用YARN,但是并沒有采用其他Hadoop生態(tài)系統(tǒng)組件。NoSQL軟件公司Redis Labs表示,它們已經(jīng)創(chuàng)建了相應(yīng)的連接器,該連接器可以將它的Redis Could與Databricks的Spark 服務(wù)集成。

TechTarget中國原創(chuàng)內(nèi)容,原文鏈接: http://www.searchbi.com.cn/showcontent_93129.htm? TechTarget中國:http://www.techtarget.com.cn

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號