新的大數(shù)據(jù)開源技術(shù)和工具往往來自互聯(lián)網(wǎng)公司,除了Facebook、Google和Twitter這樣的巨頭外,一些甚至是你想不到的互聯(lián)網(wǎng)公司,例如Netflix和Spotify(音樂流媒體服務(wù))也會(huì)貢獻(xiàn)一些優(yōu)秀的大數(shù)據(jù)分析開源工具(Suro和Luigi)。
近日創(chuàng)業(yè)公司 Mortar 就將Spotify開發(fā)的開源大數(shù)據(jù)工具 Luigi 搬上云端,在亞馬遜云上提供復(fù)雜的,涉及大量工具和數(shù)據(jù)庫(kù)的大數(shù)據(jù)流水線處理服務(wù),不論是否使用Hadoop,用戶都可以用Luigi管理復(fù)雜的大數(shù)據(jù)工作流。
Mortar公司最初的產(chǎn)品是提供一個(gè)編寫和啟動(dòng)Hadoop任務(wù)的簡(jiǎn)單框架,運(yùn)行在亞馬遜彈性MapReduce云服務(wù)上。2012年,Mortar開始開源一些產(chǎn)品代碼并分享一些Hadoop任務(wù)模板。2013年,Mortar與一群優(yōu)秀的數(shù)據(jù)科學(xué)家協(xié)作,幫助用戶開發(fā)推薦引擎,并期望能夠從中摸索出在Mortar平臺(tái)上運(yùn)行這些任務(wù)的流程。
如今,Mortar的產(chǎn)品戰(zhàn)略已經(jīng)擴(kuò)展到了Hadoop以外,希望用戶通過Mortar管理的應(yīng)用不再局限于Hadoop圈子。
Mortar首席執(zhí)行官K Young指出:雖然Hadoop在客戶那里非常受歡迎,但還是有很多重要的數(shù)據(jù)并不需要Hadoop,或者根本就不適用。通過以云服務(wù)的方式提供Luigi工具,Mortar的用戶如今能夠使用Python開發(fā)和可視化通往任何數(shù)據(jù)庫(kù)或處理環(huán)境的大數(shù)據(jù)管線,只要它們支持API訪問。
Young還認(rèn)為云端版Liugi將幫助用戶更快完成從原型到產(chǎn)品的過渡。Mortar也不準(zhǔn)備放棄Hadoop,因?yàn)楫?dāng)今的大數(shù)據(jù)應(yīng)用需要與多種處理環(huán)境對(duì)接,而開發(fā)者需要一種更簡(jiǎn)單的方法來管理這個(gè)流程。
“事實(shí)上,很多大數(shù)據(jù)項(xiàng)目擱淺并非因?yàn)榇髷?shù)據(jù)技術(shù)的復(fù)雜性格或者缺少數(shù)據(jù)科學(xué)家,最大的問題是如何將數(shù)據(jù)從所在的地方轉(zhuǎn)移到需要(處理)的地方。”Young說道。