大數(shù)據(jù)在硅谷炙手可熱,拿融資自然也不再話下,拿到千萬(wàn)級(jí)美元融資的也有不少,不久前大數(shù)據(jù)分析云服務(wù)GoodData就獲得了Intel Capital領(lǐng)投的2750萬(wàn)美元。據(jù)華爾街日?qǐng)?bào)消息,機(jī)器學(xué)習(xí)平臺(tái) GraphLab 剛剛改名Dato,并獲得了 1850 萬(wàn)美元新融資,投資方為 Vulcan Capital 、Opus Capital 、New Enterprise Associates、Madrona Venture Group。此前他們?cè)@得680萬(wàn)美元融資。
GraphLab 提供了一個(gè)完整的平臺(tái),讓客戶能夠使用可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行大數(shù)據(jù)分析。簡(jiǎn)單來(lái)說(shuō),就是從別的應(yīng)用程序或者服務(wù)中抓取數(shù)據(jù),讓機(jī)器學(xué)習(xí)這個(gè)模型,并將學(xué)到的知識(shí)作為基礎(chǔ),自動(dòng)地進(jìn)行準(zhǔn)確的預(yù)測(cè)和決策制定。這么講挺抽象,我們還是具體舉幾個(gè)例子吧??赡茏詈美斫獾木褪敲裰鲊?guó)家政府的民意調(diào)查,可以通過(guò)社交網(wǎng)絡(luò)、媒體等提取數(shù)據(jù),分析出民眾到底在關(guān)心什么,分析出哪些區(qū)域的哪些問(wèn)題必須關(guān)注、解決。其實(shí),生物醫(yī)學(xué)研究團(tuán)隊(duì)也會(huì)使用 GraphLab,主要是來(lái)分析臨床記錄,從而預(yù)測(cè)病人的病情發(fā)展趨勢(shì)。零售業(yè)可以做價(jià)格預(yù)測(cè)、用戶推薦;金融服務(wù)業(yè)可以做詐騙預(yù)警;市場(chǎng)公司則可以通過(guò)情緒分析鎖定關(guān)鍵客戶。現(xiàn)在 GraphLab 的客戶已經(jīng)包括 Zillow、Adobe、Zynga、Pandora 等。
那為什么是 GraphLab(現(xiàn)在應(yīng)該叫 Dato 了)會(huì)獲得這么多客戶的青睞呢? 其實(shí),將原始數(shù)據(jù)轉(zhuǎn)化為決策依據(jù),并作出預(yù)測(cè),這個(gè)過(guò)程還是很復(fù)雜的。往往需要大量的數(shù)據(jù)處理工具,收集、清洗數(shù)據(jù),再建模分析,得出結(jié)論,進(jìn)行展示;還需要大量的數(shù)據(jù)科學(xué)家或同樣知識(shí)淵博的軟件工程師來(lái)配合完成。既耗時(shí)費(fèi)力,還投入不菲。所以 GraphLab 這樣的平臺(tái),可以讓毫無(wú)編程經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家,快速地將理念轉(zhuǎn)化為生產(chǎn)環(huán)境可以使用的產(chǎn)品,提高企業(yè)的生產(chǎn)效率,自然受歡迎。值得一提的是,Dato 現(xiàn)在能處理各種數(shù)據(jù)類型。
GraphLab 的創(chuàng)始人 Carlos Guestrin 是機(jī)器學(xué)習(xí)界國(guó)際公認(rèn)的大牛,曾被 Popular Science 雜志評(píng)為 2008 年 “Brilliant 10”,還獲得過(guò)美國(guó)青年科學(xué)家總統(tǒng)獎(jiǎng)。2008 年在卡耐基梅隆大學(xué)帶著兩個(gè)學(xué)生研發(fā)了 GraphLab 的原型,2012 年被 Jeff Bezos 游說(shuō)去了華盛頓大學(xué)。在 Madrona Ventures 和 NEA 的資金支持下,2014 年 3 月創(chuàng)辦了 GraphLab,并以測(cè)試版的形式推出了第一個(gè)商業(yè)版。2013 年 10 月,增加了機(jī)器學(xué)習(xí)功能,推出了新版本?,F(xiàn)在的 GraphLab 已經(jīng)不僅僅是圖譜分析了,更是一家基于 AI 的大數(shù)據(jù)公司,能夠處理各種數(shù)據(jù)類型,所以公司也改名叫 Dato 了。
我司在美帝的妹子小蘇曾寫(xiě)過(guò)文章,詳細(xì)的介紹了硅谷的大數(shù)據(jù)行業(yè)發(fā)展。在美國(guó)現(xiàn)在的大數(shù)據(jù)公司主要有四類:
數(shù)據(jù)的擁有者、數(shù)據(jù)源:特點(diǎn)是業(yè)務(wù)優(yōu)勢(shì)能收集到大量數(shù)據(jù),就像煤老板壟斷一個(gè)地區(qū)的礦一樣。其實(shí)大多數(shù)有能力產(chǎn)生或收集數(shù)據(jù)的公司都屬于這類型,比如Vantage Sports和收集了PB級(jí)數(shù)據(jù)的包子鋪。
大數(shù)據(jù)咨詢:特點(diǎn)是非常技術(shù),提供從基礎(chǔ)設(shè)施規(guī)劃建設(shè)維護(hù)到軟件開(kāi)發(fā)和數(shù)據(jù)分析等的服務(wù),但不擁有數(shù)據(jù),比如Cloudera這家不到500人的startup是最著名的Hadoop架構(gòu)咨詢公司。
做大數(shù)據(jù)工具的:比如AMPLab出來(lái)的Databricks和Yahoo人主導(dǎo)的Hortonworks。
整合應(yīng)用型:特點(diǎn)是收集擁有或購(gòu)買一些數(shù)據(jù),然后結(jié)合AI來(lái)解決更多實(shí)際的痛點(diǎn)。
像 Dato 這種做整合應(yīng)用型的大數(shù)據(jù)公司才有可能有希望。未來(lái)是 AI 的,而 AI 的食物是數(shù)據(jù)。就像很多產(chǎn)業(yè)鏈一樣,最困難且最有價(jià)值的創(chuàng)新往往發(fā)生在接近最終用戶的那端,比如 iPhone。大數(shù)據(jù)行業(yè)最有價(jià)值的部分在于如何利用機(jī)器去處理數(shù)據(jù)得到洞見(jiàn),影響組織和個(gè)人的行為,從而改變世界。收集和整理數(shù)據(jù)在未來(lái)會(huì)變得標(biāo)準(zhǔn)化和自動(dòng)化,而利用 AI 進(jìn)行分析的能力會(huì)變得更為關(guān)鍵。