亚洲AV无码一区二区一二区,2020国产在线拍揄自揄视频,2020国产精品永久在线

磁盤性能同樣彪悍，Spark打破大數(shù)據(jù)基準(zhǔn)測試記錄

責(zé)任編輯：editor005

2014-10-13 22:59:52

摘自：36大數(shù)據(jù)

為了展示Spark在可靠處理超大規(guī)模數(shù)據(jù)集方面的性能，Databrick還增加了一個非正式的測試（上圖），190臺服務(wù)器處理1PB數(shù)據(jù)用時4小時。轉(zhuǎn)載請注明來自36大數(shù)據(jù)（36dsj.com)：36大數(shù)據(jù) 磁盤性能同樣彪悍，Spark打破大數(shù)據(jù)基準(zhǔn)測試記錄

Apache Spark是當(dāng)今最火爆的大數(shù)據(jù)處理框架。Spark的性能和速度都大大優(yōu)于MapReduce，且更加容易使用，而且Spark已經(jīng)擁有一個龐大的用戶和貢獻(xiàn)者社區(qū)，這意味著Spark更加符合下一代低延遲、實時處理、迭代計算的大數(shù)據(jù)應(yīng)用的要求，大有取代MapReduce的趨勢。

但不少人認(rèn)為Spark僅僅是在內(nèi)存計算環(huán)境比Mapreduce表現(xiàn)出色。近日為了給Spark正名，Spark商業(yè)化公司Databrick在磁盤環(huán)境給Spark做了GraySort跑分測試（下圖）。

Databrick的Daytona GraySort測試環(huán)境使用了亞馬遜云中的206臺服務(wù)器共計6600個內(nèi)核，測試數(shù)據(jù)量高達(dá)100TB，測試用時僅僅23分鐘，打破了此前由雅虎保持的記錄，雅虎當(dāng)時動用了2100節(jié)點的Hadoop集群，共計5萬多個內(nèi)核才完成100TB數(shù)據(jù)的測試（用時72分鐘）。

為了展示Spark在可靠處理超大規(guī)模數(shù)據(jù)集方面的性能，Databrick還增加了一個非正式的測試（上圖），190臺服務(wù)器處理1PB數(shù)據(jù)用時4小時。Databricks的客戶營銷總監(jiān)Arsalan Tavakoli表示，不少公司的大數(shù)據(jù)處理規(guī)模遠(yuǎn)不止1PB，對Spark在生產(chǎn)環(huán)境的擴展性持懷疑態(tài)度的人，應(yīng)當(dāng)看到阿里巴巴的Spark集群已經(jīng)擴展到數(shù)百PB。

Databrick的GraySort基準(zhǔn)測試采用HDFS作為存儲層，測試數(shù)據(jù)來自Databricks云，存儲在亞馬遜的S3或HDFS（AWS實例）。Databrick的官網(wǎng)上周五公布了更多的測試細(xì)節(jié)，包括測試方法和可信度等。

Spark 磁盤性能大數(shù)據(jù)