Databricks Cloud是一款基于云計算的Spark大數(shù)據(jù)處理引擎,它實現(xiàn)了一些更新特性,旨在滿足來自數(shù)據(jù)科學(xué)家社區(qū)的功能需求。
Databricks公司在去年六月份發(fā)布的版本功能是不太完善的,該公司既有客戶都在考慮他們的應(yīng)用是否可以遷移到基于云計算的基礎(chǔ)設(shè)施。在此過程中,有許多組織都在等待他們想要的產(chǎn)品。今天,Databricks公司終于向所有期待者推出了Databricks Cloud服務(wù)。
Databricks Cloud通用版基于Apache Spark 1.4,該版本中最突出的特性是支持R語言的接口,一些Spark用戶一直在提議支持R語言,Spark開發(fā)者們?nèi)ツ晗奶炀驮S諾一定會支持。R語言是最流行的分析程序編程語言之一,在數(shù)據(jù)科學(xué)家群體中廣泛應(yīng)用,Spark集成對R語言的支持將實現(xiàn)可以用R語言針對巨大數(shù)據(jù)存儲構(gòu)建和運行應(yīng)用。
更好的協(xié)作和更多控制
Spark1.4還包括內(nèi)建對GitHub版本工具的集成,它支持多人開發(fā)團隊跟蹤項目變化,不管是做分析算法還是應(yīng)用開發(fā),都能改善團隊協(xié)作。此外,新發(fā)布版本給IT管理員們提供了更多功能,可以基于角色分組給終端用戶分配權(quán)限,改善了訪問控制功能。Databricks公司說將在該公司產(chǎn)品中支持那些功能特性,預(yù)計下半年可以實現(xiàn)。
Databricks公司是由Spark創(chuàng)始人MateiZaharia與其他人聯(lián)合創(chuàng)建的,是Apache軟件基金會Spark開源項目的主要貢獻(xiàn)機構(gòu)。最開始的時候,Databricks公司在AWS云平臺上運行產(chǎn)品版本,Databricks Cloud的主要吸引力在于它給用戶提供了訪問Sparks功能特性集的途徑,包括內(nèi)存中處理數(shù)據(jù)的能力,無需安裝產(chǎn)品本身就能用了。
BennyBlum就是這樣一位用戶。Blum是Databricks公司的客戶Sellpoints公司負(fù)責(zé)產(chǎn)品和數(shù)據(jù)科學(xué)的副總裁,這是一家電子商務(wù)優(yōu)化服務(wù)供應(yīng)商,該公司幫助有需求的公司網(wǎng)站獲得更多流量,更好地投放他們的在線廣告給潛在客戶。他說,他喜歡Spark的功能,但是又不想在內(nèi)部管理這項技術(shù),因為該技術(shù)相對復(fù)雜,需要投入大量的時間進(jìn)行研究。
Blum說:“我們可以建立自己的集群并運行Spark,但是我們對Spark還是相當(dāng)陌生的,它需要大量資源才能確保集群正常工作。”
利用Spark和R語言回歸傳統(tǒng)方式
與R語言的集成是令Blum感興趣的另一個特性。Sellpoints公司在引入Databricks Cloud之前大量使用R語言做數(shù)據(jù)分析,公司大量數(shù)據(jù)科學(xué)家都喜歡這種語言。但是因為R語言在Spark大數(shù)據(jù)引擎以前的版本中不支持,所以在今年剛開始時候Sellpoints公司考慮實施Databricks技術(shù)時放棄了考慮R語言。但是他們現(xiàn)在將尋求可以重新實施支持R語言的具體項目。
R語言支持可以說是Blum認(rèn)為Spark存在的主要缺陷之一。既然該平臺主要是為了處理大量數(shù)據(jù)處理而設(shè)計,那么其機器學(xué)習(xí)算法庫對于較小的任務(wù)來說很難實施,因為小任務(wù)需要靈活性,這類應(yīng)用仍然需要開發(fā),在投入生產(chǎn)應(yīng)用之前也需要經(jīng)常測試和更新。R原本就是針對在單一計算機上內(nèi)存中處理任務(wù)而設(shè)計的,所以它更適合處理這類應(yīng)用開發(fā)的靈活性。Blum認(rèn)為,新的接口(支持R語言)幫助在數(shù)據(jù)科學(xué)家和其它終端用戶之間的鴻溝上架起了橋梁。
他說:“事實上,Spark本就是為處理大規(guī)模數(shù)據(jù)設(shè)計的,所以Spark中的機器學(xué)習(xí)庫也是限制在那個規(guī)模上使用才更有效的。”