弄啥嘞?Spark將納入機(jī)器學(xué)習(xí)與GPU

責(zé)任編輯:editor006

2016-11-02 16:39:57

摘自:it168網(wǎng)站

現(xiàn)在所有人的注意力都集中在人工智能上,似乎VR的火熱帶動了人工智能的發(fā)展。這似乎不僅僅是增加幾個機(jī)器學(xué)習(xí)庫那么簡單了,而是在此基礎(chǔ)上確保使用的便利性,而不是增加其使用復(fù)雜度。

現(xiàn)在所有人的注意力都集中在人工智能上,似乎VR的火熱帶動了人工智能的發(fā)展。最近對全球大學(xué)人工智能教育的排名中,中國暫無高校上榜。相比于國際上各大高校實(shí)驗(yàn)室的火熱,國內(nèi)高校的動作似乎有些偏慢了。就好比加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室所開源的Hadoop MapReduce通用并行框架Spark,在開源社區(qū)的貢獻(xiàn)下,勢頭只增不減。近日,據(jù)外媒報道,Spark將納入機(jī)器學(xué)習(xí)和GPU機(jī)制。

弄啥嘞?Spark將納入機(jī)器學(xué)習(xí)與GPU

機(jī)器學(xué)習(xí)大家都不陌生了,GPU加速其實(shí)一直是機(jī)器學(xué)習(xí)的得力輔助,CUDA就是我們眾所周知的GPU加速套件。Databricks是一個基于Apache Spark的商業(yè)性云服務(wù)平臺。Spark是一個開源集群計算框架,包括機(jī)器學(xué)習(xí)庫、集群管理器、類Jupyter的互動筆記本、儀表板和作業(yè)預(yù)定。有了Databricks(作服務(wù))后,Spark發(fā)展顯著加快且Spark集群不斷向外擴(kuò)展。Databricks通過簡化對GPU加速型機(jī)器學(xué)習(xí)庫的訪問支持Spark服務(wù)。GPU加速器和多個深度機(jī)器學(xué)習(xí)庫集成,理論上可以在本地任何位置實(shí)現(xiàn)Apache Spark安裝。但Databricks方面表示,為了避免資源爭用情況給功能的實(shí)際使用帶來復(fù)雜性影響,其版本目前仍處于調(diào)整階段。

Apache Spark不是自動提供并配置GPU加速器的,它是通過建立系統(tǒng)來支持的,早前用戶必須自己搭建。為此,Databricks主動承擔(dān)起這些復(fù)雜的前期工作。

Databricks方面表示,將通過減少節(jié)點(diǎn)之間的資源爭用數(shù)量,最大化Spark上GPU集群的性能優(yōu)勢。這一策略似乎與麻省理工學(xué)院的Milk看起來類似,Milk是通過加速并行處理應(yīng)用程序,與內(nèi)存相關(guān)的操作一律使用批處理,以保證充分利用系統(tǒng)的緩存資源。同樣的,Databricks試圖保證GPU的各項(xiàng)操作不會因?yàn)楸舜说馁Y源爭用而中斷。另一個比較節(jié)省時間的方法是添加直接訪問機(jī)器學(xué)習(xí)庫,這樣就可以把Spark作為數(shù)據(jù)源。這其中就包括Databrick的TensorFrames,目前Spark已經(jīng)與TensorFrames打通,同時實(shí)現(xiàn)了GPU加速。

出于對Spark的考慮,Databricks調(diào)整了眾多基礎(chǔ)設(shè)施,創(chuàng)造了一個免費(fèi)的服務(wù)吸引那些仍然持謹(jǐn)慎態(tài)度的用戶,包括提供成熟產(chǎn)品中的部分功能。InfoWorld的Martin Heller今年早些時候就曾對該服務(wù)做出評價,除了免費(fèi)之外,他認(rèn)為該服務(wù)很容易使用,門檻不高。

但該領(lǐng)域的競爭還是十分激烈的,尤其是要面對一些巨頭玩家的壓力,比如擁有Azure機(jī)器學(xué)習(xí)的微軟,IBM以及Amazon。如果比燒錢,比免費(fèi),小公司難以與大公司競爭;比技術(shù),小公司也不見得擁有多優(yōu)秀的技術(shù)人才。因此,Databricks必須找到方法去保持和擴(kuò)大服務(wù)受眾,專注打磨自己的產(chǎn)品,尤其是要突出產(chǎn)品特色,避免產(chǎn)品同質(zhì)化。這似乎不僅僅是增加幾個機(jī)器學(xué)習(xí)庫那么簡單了,而是在此基礎(chǔ)上確保使用的便利性,而不是增加其使用復(fù)雜度。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號