近日MapR宣布推出了一款名為Quick Start Solution(QSS)的新解決方案,專注于深度學(xué)習(xí)應(yīng)用。MapR強調(diào),QSS是一款分布式深度學(xué)習(xí)產(chǎn)品和服務(wù),能夠大規(guī)模訓(xùn)練復(fù)雜的深度學(xué)習(xí)算法。
想法是這樣的:深度學(xué)習(xí)需要有大量數(shù)據(jù),這是很復(fù)雜的。如果MapR的融合數(shù)據(jù)平臺是你的主干架構(gòu),那么QSS可以讓你得到將數(shù)據(jù)用于深度學(xué)習(xí)應(yīng)用所需的東西。這是有道理的,這符合MapR的戰(zhàn)略。
MapR是第一家在市場中推出所謂的“AI on Hadoop”產(chǎn)品的Hadoop廠商。但是AI on Hadoop從更大范圍來說是有意義的嗎?其他廠商在這方面都做了什么?
專注深度學(xué)習(xí)的MapR
還記得Hadoop第一次問世的時候嗎?那時候Hadoop還是一個具有諸多優(yōu)點的平臺,但是需要用戶具有額外的專業(yè)技能才可以使用Hadoop。現(xiàn)在這種情況改變了。Hadoop已經(jīng)成為一個蓬勃發(fā)展的生態(tài)系統(tǒng),它取得成功的很大一部分是因為我們所謂的SQL on Hadoop。
Hadoop一直能夠以低廉的成本保存和處理大量數(shù)據(jù),但此前并非如此,直到它支持通過SQL訪問數(shù)據(jù),這讓Hadoop足以成為企業(yè)數(shù)據(jù)主干的有力競爭者。SQL仍然是訪問數(shù)據(jù)的事實標(biāo)準(zhǔn),所以支持SQL意味著Hadoop可以被大多數(shù)人所使用。
AI和SQL是不同的。它并不具備向后兼容性,以及商業(yè)功能。AI是一種具有前瞻性的領(lǐng)域。但即使今天,AI對于使用AI的人來說是一個差異點,但看起來AI似乎很快就會成為一種商品。那些沒有使用AI的人將無法參與競爭。
AI和SQL也是類似的:如果你是一家Hadoop廠商,那么這不是你真正的工作。這是其他人要做的——你只需要確保Hadoop可以運行在你的平臺上,也就是數(shù)據(jù)所在的地方。這就是MapR希望通過SQL實現(xiàn)的。
MapR利用開源容器技術(shù)(例如Docker),以及編排技術(shù)(例如Kubernetes)以分布式的方式部署深度學(xué)習(xí)工具(例如TensorFlow)。這些技術(shù)都與MapR無關(guān),但是QSS帶給它的價值是確保所有功能都可以無縫連接。
MapR QSS所具有的分布式深度學(xué)習(xí)擁有三層:底層是數(shù)據(jù)層,中間是編排層,頂層是應(yīng)用層
MapR首席應(yīng)用架構(gòu)師Ted Dunning解釋說:“采用AI/深度學(xué)習(xí)最好的方式就是部署一個可擴展的融合數(shù)據(jù)平臺,這個平臺支持最新的深度學(xué)習(xí)技術(shù),且擁有一個幾乎可以無限擴展的底層企業(yè)數(shù)據(jù)框架。”
他還指出,“幾乎所有機器學(xué)習(xí)軟件都是獨立于Hadoop和Spark部署的。這要求有一個類似MapR這樣的平臺,能夠支持Hadoop/Spark工作負載,以及傳統(tǒng)文件系統(tǒng)API。”
既然這種方法奏效,那么你為什么不使用MapR-DB、MapR Streams以及MapR-FS,還有MapR Persistent Application Client Container (PACC)來部署你的模式?哦,我們也為你準(zhǔn)備了服務(wù)來幫助你。這就是MapR希望通過QSS傳遞的信息。
MapR首席產(chǎn)品官Anil Gadre表示:“深度學(xué)習(xí)可以為企業(yè)組織提供深遠的轉(zhuǎn)型機會。我們的專業(yè)知識加上獨特的設(shè)計構(gòu)成了QSS的基礎(chǔ)。QSS將可以讓企業(yè)快速利用現(xiàn)代化基于GPU的架構(gòu),為他們擴展深度學(xué)習(xí)鋪平道路。”
AI on Hadoop
那么,這與AI on Hadoop是一回事嗎?與SQL不同,AI是沒有標(biāo)準(zhǔn)的。甚至現(xiàn)在還沒有一個被廣泛接受和理解的定義。深度學(xué)習(xí)只是機器學(xué)習(xí)的一部分,深度學(xué)習(xí)又只是AI的一部分。甚至在深度學(xué)習(xí)中,雖然會有一些共享的理念,但是沒有一個常用的API。所以SQQ是DL on Hadoop,并不是真正的AI on Hadoop。
AI不止是機器學(xué)習(xí),機器學(xué)習(xí)不止是深度學(xué)習(xí)
使用像Hadoop這樣的數(shù)據(jù)和計算平臺作為AI的基礎(chǔ)這是很自然的想法。但是能夠在Hadoop上運行機器學(xué)習(xí)或者深度學(xué)習(xí)并不會讓Hadoop廠商變成一家AI廠商。這是我們在過去幾個月與許多Hadoop廠商高管溝通得出的結(jié)論。
對于Cloudera公司首席執(zhí)行官Tom Reilly來說,“機器學(xué)習(xí)是非常真實非常活躍的,在實踐中有很好的表現(xiàn)。我們的客戶正在努力了解AI,了解這對未來意味著什么。我們正在幫助他們使用機器學(xué)習(xí),我們的平臺已經(jīng)支持機器學(xué)習(xí),并將繼續(xù)提供支持。我們的平臺是人們對AI是使用的數(shù)據(jù)的承載平臺。”
Cloudera一直被批評在最近的IPO文件中試圖把自己定位為一家AI公司。據(jù)我們所知,Cloudear并沒有在AI方面的廣泛內(nèi)部經(jīng)驗。它有一個數(shù)據(jù)科學(xué)團隊,有很多員工,還有最近收購的sense.io。
Sense.io一直被集成到Cloudear的堆棧中,收購后被重新包裝成Cloudera Data Science Workbench (CDSW)。在最近與Cloudear數(shù)據(jù)科學(xué)總監(jiān)Sean Own的交談中,Owen將sense.io比作IBM的DataWorks。
“通過提供對數(shù)據(jù)的就緒訪問,CDWS縮短了通過我們自動化的機器學(xué)習(xí)平臺交付AI應(yīng)用價值的時間,”DataRobot公司首席執(zhí)行官Jeremy Achin指出。這一點很好,但是這并不是真正的AI,對吧?
對于Hortonworks公司首席技術(shù)官Scott Gnau表示,AI包含兩個關(guān)鍵組成部分:大量數(shù)據(jù)外加數(shù)據(jù)包和算法處理數(shù)據(jù)。Hortonworks支持兩者,AI勝利了,Hortonworks也就勝利了。不過,Gnau強調(diào)說,他認(rèn)為Hortonworks的優(yōu)勢在于企業(yè)監(jiān)管和安全性。
Gnau認(rèn)為,我們還沒有看到我們所期待的AI中的新興技術(shù)。所以Hortonworks的方法是投資基礎(chǔ)設(shè)施,成為值得信賴的數(shù)據(jù)廠商,同時密切關(guān)注新興的殺手級技術(shù)和應(yīng)用。
每家廠商的方法都必須考慮現(xiàn)在的大背景以及他們的變革方向。AI是一個新的戰(zhàn)場,廠商各自的方法與他們的理念和目標(biāo)相符合,我們將繼續(xù)關(guān)注和分析AI方面的進展。