Apache Spark是當(dāng)今最火爆的大數(shù)據(jù)處理框架。Spark的性能和速度都大大優(yōu)于MapReduce,且更加容易使用,而且Spark已經(jīng)擁有一個龐大的用戶和貢獻(xiàn)者社區(qū),這意味著Spark更加符合下一代低延遲、實時處理、迭代計算的大數(shù)據(jù)應(yīng)用的要求,大有取代MapReduce的趨勢。
但不少人認(rèn)為Spark僅僅是在內(nèi)存計算環(huán)境比Mapreduce表現(xiàn)出色。近日為了給Spark正名,Spark商業(yè)化公司Databrick在磁盤環(huán)境給Spark做了GraySort跑分測試(下圖)。
Databrick的Daytona GraySort測試環(huán)境使用了亞馬遜云中的206臺服務(wù)器共計6600個內(nèi)核,測試數(shù)據(jù)量高達(dá)100TB,測試用時僅僅23分鐘,打破了此前由雅虎保持的記錄,雅虎當(dāng)時動用了2100節(jié)點的Hadoop集群,共計5萬多個內(nèi)核才完成100TB數(shù)據(jù)的測試(用時72分鐘)。
為了展示Spark在可靠處理超大規(guī)模數(shù)據(jù)集方面的性能,Databrick還增加了一個非正式的測試(上圖),190臺服務(wù)器處理1PB數(shù)據(jù)用時4小時。Databricks的客戶營銷總監(jiān)Arsalan Tavakoli表示,不少公司的大數(shù)據(jù)處理規(guī)模遠(yuǎn)不止1PB,對Spark在生產(chǎn)環(huán)境的擴展性持懷疑態(tài)度的人,應(yīng)當(dāng)看到阿里巴巴的Spark集群已經(jīng)擴展到數(shù)百PB。
Databrick的GraySort基準(zhǔn)測試采用HDFS作為存儲層,測試數(shù)據(jù)來自Databricks云,存儲在亞馬遜的S3或HDFS(AWS實例)。Databrick的官網(wǎng)上周五公布了更多的測試細(xì)節(jié),包括測試方法和可信度等。