Part1
全景圖+解析
高層趨勢(shì)
大數(shù)據(jù)+AI=新棧
2016年無疑是機(jī)器學(xué)習(xí)之年,任何目睹過眾多pitch的VC都應(yīng)該能感受到這一點(diǎn),那就是每一家初創(chuàng)企業(yè)都成為了“機(jī)器學(xué)習(xí)公司”,“.ai”變成了必備域名,而“等等,可是我們是用機(jī)器學(xué)習(xí)做到這個(gè)的”也成為了pitch deck的必備幻燈片。機(jī)器學(xué)習(xí)正在迅速成為許多應(yīng)用的關(guān)鍵建構(gòu)塊。
相應(yīng)地,一個(gè)新興的技術(shù)棧正在出現(xiàn),在這個(gè)技術(shù)棧里面,大數(shù)據(jù)被用于處理核心的數(shù)據(jù)工程挑戰(zhàn),而機(jī)器學(xué)習(xí)則用于以分析洞察或者行動(dòng)的形式從數(shù)據(jù)中析取出價(jià)值。
換言之,大數(shù)據(jù)提供管道,AI提供智能。當(dāng)然,這種共生關(guān)系已經(jīng)出現(xiàn)多年,只是能實(shí)現(xiàn)這個(gè)的目前還不多而已。
但是,現(xiàn)在這些技術(shù)開始大眾化的普及。“大數(shù)據(jù)+AI”正在成為眾多現(xiàn)代應(yīng)用(不管是消費(fèi)者型還是企業(yè)型)的默認(rèn)技術(shù)棧。無論是初創(chuàng)企業(yè)還是一些財(cái)富1000強(qiáng)公司都在利用這一新的技術(shù)棧。而且在云巨頭的努力下,這個(gè)技術(shù)棧往往還有云計(jì)算這個(gè)更基礎(chǔ)的建構(gòu)塊的加入,以機(jī)器學(xué)習(xí)云的形式出現(xiàn)。
但是AI的大眾化是否就意味著這種技術(shù)在短期內(nèi)能實(shí)現(xiàn)商品化呢?現(xiàn)實(shí)是AI在技術(shù)上仍然非常困難。盡管許多工程師都在爭(zhēng)先培養(yǎng)AI技能,但全球這方面的領(lǐng)域?qū)<胰匀皇窒∪薄?/p>
不過這股大眾化的趨勢(shì)已經(jīng)不可逆轉(zhuǎn),而機(jī)器學(xué)習(xí)早晚都要從競(jìng)爭(zhēng)優(yōu)勢(shì)演變成桌面籌碼。
這對(duì)初創(chuàng)企業(yè)和大公司都會(huì)產(chǎn)生影響。對(duì)于初創(chuàng)企業(yè)來說,除非你把AI軟件做成自己的最終產(chǎn)品,否則的話自我標(biāo)榜為“機(jī)器學(xué)習(xí)公司”將變得毫無意義。對(duì)于大公司來說,如果現(xiàn)在你不積極推進(jìn)大數(shù)據(jù)+AI的戰(zhàn)略,就會(huì)有變得過時(shí)的風(fēng)險(xiǎn)。AI已經(jīng)是下一個(gè)風(fēng)口了。
企業(yè)預(yù)算:一切向錢看
從2016年的情況來看,財(cái)富1000強(qiáng)公司已經(jīng)在紛紛增加預(yù)算用于升級(jí)核心基礎(chǔ)設(shè)施以及分析,其關(guān)鍵的關(guān)注點(diǎn)正是大數(shù)據(jù)技術(shù)。分析機(jī)構(gòu)IDC預(yù)計(jì)大數(shù)據(jù)和分析市場(chǎng)將從2016年的1300億美元增長到2020年的超過2030億美元。
而且財(cái)富1000強(qiáng)公司里面的許多買家在大數(shù)據(jù)技術(shù)方面正在變得越來越嫻熟、越來越目光敏銳。這些公司過去幾年做了很多功課,正在進(jìn)入全面部署階段。這種情況不僅發(fā)生在技術(shù)導(dǎo)向型的公司,在很多行業(yè)都是如此。
在大公司每隔幾年就要發(fā)生的舊技術(shù)替代自然周期的推動(dòng)下,這種情況得到進(jìn)一步加速。大數(shù)據(jù)遭遇的環(huán)境也從逆風(fēng)變成了順風(fēng)。當(dāng)然,很多大公司仍然處在大數(shù)據(jù)部署的早期階段,但是情況似乎在快速演變。
企業(yè)數(shù)據(jù)向云端遷移
直到幾年前,把企業(yè)數(shù)據(jù)遷移到公有云上面對(duì)于大公司CIO來說還是不可想象的事情,頂多是在開發(fā)環(huán)境下或者拿非關(guān)鍵的、面向外部的應(yīng)用來嘗試一下。但現(xiàn)在畫風(fēng)開始有所變化,大家對(duì)此的態(tài)度似乎變得更加開放了,比方說你會(huì)聽到這樣的說法“不管怎么說我們的客戶數(shù)據(jù)已經(jīng)放到Salesforce云上面了”,或者“在網(wǎng)絡(luò)安全方面我們永遠(yuǎn)也不會(huì)有像AWS那么多的預(yù)算”。但目前里大多數(shù)企業(yè)都向公有云遷移還遠(yuǎn)得很,這部分是因?yàn)檫z留系統(tǒng)和管制方面的原因。不過云供應(yīng)商正在竭盡全力來加速這一趨勢(shì)的轉(zhuǎn)變。比如說AWS甚至可以開卡車來運(yùn)你的硬盤到云端。
對(duì)比2016版與2017版
2016年大數(shù)據(jù)版圖
2017年大數(shù)據(jù)版圖
整合要來了嗎?
從上圖可看出,這張圖已經(jīng)變得越來越擁擠,那么一個(gè)顯然的問題來了:行業(yè)是否瀕臨大規(guī)模整合的邊緣了呢?
似乎還沒有。至少目前如此。
首先VC仍然繼續(xù)樂于給新老公司提供資金扶持。2017年的第一季度成長階段的大數(shù)據(jù)初創(chuàng)企業(yè)拿到了不少的可觀融資,其中包括:Looker(8100萬美元D輪),InsideSales (5000萬美元F輪),DataRobot (5400萬美元C輪),Confluent (5000萬美元C輪),Collibra (5000萬美元C輪),Uptake (4000萬美元C輪),WorkFusion (35M00萬美元D輪) and MapD (3500萬美元B輪)等。去年12月DataBricks也拿到了6000萬美元的C輪。
2016年,大數(shù)據(jù)初創(chuàng)企業(yè)的總?cè)谫Y達(dá)到了148億美元,占到了全球技術(shù)風(fēng)險(xiǎn)投資的10%。
其次,自去年的大數(shù)據(jù)版圖推出以來,本領(lǐng)域的并購活動(dòng)一直在穩(wěn)步推進(jìn),但不是特別顯著,其中部分原因也許是未上市公司的估值仍然高企。入選2016大數(shù)據(jù)版圖的公司當(dāng)中共有41家被收購(完整清單參見附注),這個(gè)節(jié)奏跟上一年是一致的。
另一方面,2017年剛開始就發(fā)生了一些大型的并購事件,其中包括Mobileye(被英特爾以153億美元收購),AppDynamics(被思科以37億美元收購),以及Nimble Storage(被HPE以12億美元收購)。
去年還有一個(gè)顯著的現(xiàn)象,那就是大型技術(shù)公司紛紛收購AI初創(chuàng)企業(yè),尤其是那些解決水平問題、有著很好團(tuán)隊(duì)的AI初創(chuàng)企業(yè)。其中包括Turi(蘋果)、Magic Pony(Twitter)、Viv Labs(三星)、MetaMind(Salesforce)、Geometric Intelligence(Uber)、API.ai(Google)以及Wise.io(GE)。當(dāng)然,這種現(xiàn)象未必能持續(xù)太久,因?yàn)閷?duì)AI的需求太旺盛了,人才實(shí)在是不夠用了。
第三,一些較大的大數(shù)據(jù)初創(chuàng)企業(yè)羽翼漸豐,正在成為獨(dú)立的上市公司。Snap無疑引領(lǐng)了技術(shù)公司IPO的復(fù)興,但是目前為止是大數(shù)據(jù)公司借了這股東風(fēng)。
2016年只有Talend一家大數(shù)據(jù)公司上市,但2017年大數(shù)據(jù)公司已經(jīng)呈現(xiàn)出爆發(fā)之勢(shì)。其中Mulesoft和Alteryx已經(jīng)上市并且表現(xiàn)不錯(cuò),而Cloudera也即將上市,其最新估值(41億美元)與收入(2.61億美元)之間的差異將延至“獨(dú)角獸”估值現(xiàn)象的成色。另外,MapR以及定位智能公司Yext也已經(jīng)在排隊(duì)等待了。
下一個(gè)會(huì)是誰呢?也許是Palantir這個(gè)超級(jí)獨(dú)角獸。這家多年以來保持神秘的公司已經(jīng)公開表達(dá)了上市的興趣。其最新估值達(dá)到了200億美元,如果上市的話必將引起轟動(dòng)。
云大戰(zhàn)
雖然大規(guī)模并購尚未出現(xiàn),但業(yè)界的另一股趨勢(shì)值得注意,這就是“功能性整合”,這種現(xiàn)象在云端尤其顯著。一些關(guān)鍵的玩家正在通過自研產(chǎn)品和開源計(jì)算引擎的實(shí)現(xiàn)逐步構(gòu)建“大數(shù)據(jù)+AI”的基礎(chǔ)構(gòu)件,面向眾多客戶群提供其所期盼的“一站式”的服務(wù)。
AWS在產(chǎn)品發(fā)布的速度和幅度方面繼續(xù)給人留下深刻印象。目前AWS幾乎提供了大數(shù)據(jù)和AI方面的所有服務(wù),包括分析框架、實(shí)時(shí)分析、數(shù)據(jù)庫(NoSQL、圖譜等)、商業(yè)智能以及日益豐富的AI能力,尤其是深度學(xué)習(xí)方面的能力。按照這種速度發(fā)展下去,AWS產(chǎn)品幾乎就要把大數(shù)據(jù)版圖的所有的基礎(chǔ)設(shè)施和分析細(xì)分領(lǐng)域都占據(jù)了。
加入云大戰(zhàn)稍晚的Google一直在積極開發(fā)廣泛的大數(shù)據(jù)產(chǎn)品(BigQuery、DataFlow、Dataproc、Datalab以及Dataprep等),并且把AI視為跨越式發(fā)展的殺手锏。在AI方面Google去年做了很多事情,包括推出了新的翻譯引擎,聘請(qǐng)了李飛飛和李佳領(lǐng)導(dǎo)新成立的Cloud AI and Machine Learning部門,推出了視頻識(shí)別的機(jī)器學(xué)習(xí)API,并且收購了數(shù)據(jù)科學(xué)家社區(qū)Kaggle。
其他大型的IT供應(yīng)商,比如微軟、IBM、SAP、Oracle以及Salesforce等也在努力推出大數(shù)據(jù)產(chǎn)品(包括云端和本地)。除了技術(shù)自研和進(jìn)行收購以外,這些玩家還越來越重視通過合作來打造生態(tài)鏈,其合作的重點(diǎn)是手上有數(shù)據(jù)的公司以及有“頭腦(AI)”的公司。IBM與Salesforce的合作以及SAP與Google的合作就是值得注意的案例。
用企業(yè)IT的行業(yè)標(biāo)準(zhǔn)來看,云供應(yīng)商還比較小,但是其不斷膨脹的野心(其中包括從企業(yè)棧底層的IaaS向應(yīng)用發(fā)展的企圖)與企業(yè)數(shù)據(jù)逐漸向云端遷移的趨勢(shì)結(jié)合,將打開龐大的企業(yè)技術(shù)市場(chǎng)大門,與傳統(tǒng)IT供應(yīng)商展開激戰(zhàn),而大數(shù)據(jù)和AI將是核心戰(zhàn)場(chǎng)。
2017數(shù)據(jù)生態(tài)體系概覽
基礎(chǔ)設(shè)施
去年的許多趨勢(shì)今年仍將延續(xù),比如流處理技術(shù),這方面Spark目前是主宰,不過像Flink這樣的有趣競(jìng)爭(zhēng)者正在出現(xiàn)。此外,還有以下一些趨勢(shì):
SQL正式回歸
在給NoSQL當(dāng)了10年副手之后,曾經(jīng)的霸主SQL數(shù)據(jù)庫正式吹響了回歸的號(hào)角。Google最近發(fā)布了Spanner數(shù)據(jù)庫的云端版。Spanner和CockroachDB(Spanner的開源版)都提供了可行的、強(qiáng)一致性的、可伸縮的SQL數(shù)據(jù)庫。Amaozn推出了Athena,跟Snowflake等產(chǎn)品類似,這是一款SQL數(shù)據(jù)引擎,可直接查詢S3下的數(shù)據(jù)。Google BigQuery、SparkSQL以及Presto等在企業(yè)逐漸獲得采用——這些都是SQL產(chǎn)品。
數(shù)據(jù)可視化
與公有云采用相關(guān)的一個(gè)有趣的趨勢(shì)是數(shù)據(jù)可視化。舊的ETL處理需要轉(zhuǎn)移大量的數(shù)據(jù)(而且往往要建立冗余數(shù)據(jù)集)并且建立數(shù)據(jù)倉庫,而數(shù)據(jù)可視化可以在數(shù)據(jù)保持不動(dòng)的情況對(duì)其進(jìn)行分析,提高了速度和敏捷性。許多下一代的分析供應(yīng)商現(xiàn)在都可以同時(shí)提供數(shù)據(jù)可視化和數(shù)據(jù)準(zhǔn)備服務(wù),并讓客戶可訪問存儲(chǔ)在云端的數(shù)據(jù)。
數(shù)據(jù)治理與安全
隨著大數(shù)據(jù)在企業(yè)側(cè)走向成熟,以及數(shù)據(jù)的多樣性和體量的不斷發(fā)展,像數(shù)據(jù)治理這樣的主題也變得日益重要。許多公司已經(jīng)選擇了“數(shù)據(jù)湖”作為把所有數(shù)據(jù)收集起來的手段。但除非你知道里面有什么東西,并且能夠訪問到合適的數(shù)據(jù)進(jìn)行分析,否則的話數(shù)據(jù)湖再大也沒有意義。但是想讓用戶方便地找到想要的東西同時(shí)管理好權(quán)限并不容易。除了數(shù)據(jù)湖以外,治理的另一個(gè)集中的主題是以安全的、可審計(jì)的方式為任何人提供對(duì)可靠數(shù)據(jù)的便捷訪問。Informatica、 Collibra、Alation等大小供應(yīng)商提供了數(shù)據(jù)目錄、參考數(shù)據(jù)管理、數(shù)據(jù)字典以及數(shù)據(jù)幫助臺(tái)等服務(wù)。
分析
數(shù)據(jù)科學(xué)家會(huì)不會(huì)瀕臨滅絕?
僅僅幾年前數(shù)據(jù)科學(xué)家還被譽(yù)為是“二十一世紀(jì)最性感的職業(yè)”。而且“數(shù)據(jù)科學(xué)家”在Glassdoor的“美國最佳職位”排行榜中仍然高居榜首。
但這個(gè)幾年前才出現(xiàn)的職業(yè)現(xiàn)在似乎有被圍困的感覺。這部分是因?yàn)楸匾?mdash;—盡管學(xué)校和程序在批量制造出新的數(shù)據(jù)科學(xué)家軍團(tuán),但周圍卻見不到多少,尤其是在招聘到頂級(jí)人才方面遭遇更大困難的財(cái)富1000強(qiáng)公司。在一些組織,數(shù)據(jù)科學(xué)部門正在從使能者演變?yōu)槠款i。
與此同時(shí),AI的大眾化以及自服務(wù)工具的蔓延使得數(shù)據(jù)科學(xué)技能有限的數(shù)據(jù)工程師,或者甚至是數(shù)據(jù)分析師執(zhí)行一些基本功能變得更加容易了,而這些功能直到最近仍然是數(shù)據(jù)科學(xué)家的領(lǐng)地。在自動(dòng)化工具的幫助下,企業(yè)的大量大數(shù)據(jù)工作,尤其是那些簡單枯燥的工作,將由數(shù)據(jù)工程師和數(shù)據(jù)分析師進(jìn)行處理,而不是有著深厚技術(shù)技能的數(shù)據(jù)科學(xué)家。
換言之,除非數(shù)據(jù)科學(xué)最終不是由機(jī)器來完全處理的。但一些初創(chuàng)企業(yè)開始旗幟鮮明地打出了“數(shù)據(jù)科學(xué)自動(dòng)化”的口號(hào)——其中最顯著的包括剛剛獲得5400萬美元融資的DataRobot,Salesforce Einstein也宣稱自己可以自動(dòng)生成模型。
不奇怪的是,這些趨勢(shì)在數(shù)據(jù)科學(xué)社區(qū)不受歡迎并引起了爭(zhēng)議(當(dāng)然了,誰會(huì)歡迎搶自己飯碗的事情)。然而,數(shù)據(jù)科學(xué)家目前大概還不需要太過恐懼。在氪遇見的未來里,自服務(wù)工具和自動(dòng)化模型選擇將會(huì)“增強(qiáng)”數(shù)據(jù)科學(xué)家而不是消滅他們,其作用將是解放他們,讓他們把焦點(diǎn)放在需要判斷、創(chuàng)造力以及社會(huì)化技能或者垂直行業(yè)知識(shí)的任務(wù)上面。
讓一切一起協(xié)作:數(shù)據(jù)工作臺(tái)的崛起
在大多數(shù)大型企業(yè)里,大數(shù)據(jù)的采用都是從少數(shù)獨(dú)立項(xiàng)目(這里做一點(diǎn)Hadoop集群,那里用一用分析工具)以及一些新的職位(數(shù)據(jù)科學(xué)家、首席數(shù)據(jù)官)開始的。
但現(xiàn)在異質(zhì)性已經(jīng)開始發(fā)展,各種各樣的工具在整個(gè)企業(yè)范圍內(nèi)得到了使用。在大公司的組織范圍內(nèi),集中化的“數(shù)據(jù)科學(xué)部門”正在讓位于更加去中心化的組織,這個(gè)由數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師以及數(shù)據(jù)分析師組成的群體,正日益嵌入到不同的業(yè)務(wù)部門里面。因此,對(duì)于平臺(tái)來說需求已經(jīng)很明顯了,那就是要讓一切都能協(xié)作到一起來,因?yàn)榇髷?shù)據(jù)的成功正是建立在設(shè)立一條由技術(shù)、人以及流程組成的裝配線基礎(chǔ)之上的。
因此,一個(gè)全新的協(xié)作平臺(tái)類型正在加快出現(xiàn),引領(lǐng)著所謂的DataOps(與DevOps對(duì)應(yīng))領(lǐng)域的發(fā)展。這方面值得關(guān)注的初創(chuàng)企業(yè)包括Dataiku 、Knime以及Domino Data Lab等。Cloudera最近剛剛基于收購的Sense發(fā)布了一款工作臺(tái)產(chǎn)品。該領(lǐng)域的開源運(yùn)動(dòng)也很強(qiáng)勁,比方說Jupyter和Anaconda就是例子。
應(yīng)用
AI驅(qū)動(dòng)的垂直應(yīng)用
AI驅(qū)動(dòng)的垂直應(yīng)用出現(xiàn)已經(jīng)有好幾年歷史了,但這股潮流已經(jīng)從涓涓細(xì)流變成了怒濤激流。突然之間似乎每個(gè)人都在開發(fā)AI應(yīng)用,不管是新的初創(chuàng)企業(yè),還是后期階段的創(chuàng)業(yè)公司都押注到AI身上,希望能給自己帶來新的突飛猛進(jìn)式的發(fā)展。
當(dāng)然,水變大了難免魚龍混雜,這里當(dāng)然有一些真正令人興奮的初創(chuàng)企業(yè),但也有不少是掛羊頭賣狗肉來蹭熱點(diǎn)的。只是用了點(diǎn)機(jī)器學(xué)習(xí)的公司算不上AI公司。
基本上來說,做一家AI公司是很棘手的。選擇一個(gè)垂直的問題當(dāng)然是個(gè)重要的開始。除了要有深厚的技術(shù)DNA以外,這還需要審慎的定位和戰(zhàn)術(shù)。但是AI帶來的無限可能性是很難不讓人著迷的。
尤其是在去年,把任何數(shù)據(jù)問題用AI來解決顯然已成趨勢(shì),無論是企業(yè)一樣還是垂直行業(yè)都是如此。所以為了反映這一趨勢(shì),今年的大數(shù)據(jù)版圖增加了交通、房地產(chǎn)、保險(xiǎn)等垂直行業(yè),并且把特別活躍的領(lǐng)域拆分了出來,比如營銷應(yīng)用現(xiàn)在分出了B2B和B2C,生命科學(xué)分成了醫(yī)療保健和生命科學(xué)。
除了一些多少還是未來主義感覺的領(lǐng)域(比如無人車)以外,AI已經(jīng)在更加沒有想象空間的企業(yè)領(lǐng)域發(fā)揮作用,比如提供預(yù)測(cè)、后端事務(wù)自動(dòng)化、安全等。
盡管AI對(duì)人類工作的威脅還不是迫在眉睫,但將來沒有任何一種職業(yè)會(huì)對(duì)此免疫。其中包括一些最為根深蒂固的白領(lǐng)工作,如醫(yī)生或者律師等。(參見 Ben Thompson:AI 已來,你最應(yīng)該擔(dān)心的不是生命,而是存在的意義)
金融界似乎一直在思考著AI的可能性和威脅。對(duì)沖基金正在為自己的算法尋找合適的替代數(shù)據(jù)。新的AI驅(qū)動(dòng)的對(duì)沖基金盡管還處在發(fā)展的早期階段,但已經(jīng)表現(xiàn)出不錯(cuò)的勢(shì)頭(比如Numerai、Data Capital Management等)。而華爾街一些最著名的機(jī)構(gòu)正在逐漸用AI來取代人力(黑石、高盛等)。
聊天機(jī)器人遭遇反沖
喜歡也好,討厭也罷,2016年都可以稱得上是聊天機(jī)器人之年,這些全自動(dòng)化的事實(shí)對(duì)話代理基本上都是出現(xiàn)在聊天服務(wù)里面。聊天機(jī)器人盡管出現(xiàn)的時(shí)間不長,但已經(jīng)經(jīng)歷了好幾個(gè)炒作周期,從早期給人希望,到Tay的災(zāi)難性收?qǐng)?,再到迷你?fù)蘇,乃至于Facebook在其Messenger平臺(tái)推出的AI機(jī)器人錯(cuò)誤率達(dá)到70%之后縮減了這方面的努力。
現(xiàn)在看來對(duì)聊天機(jī)器人的興奮似乎高興太早,原因也許是大家從亞洲的聊天機(jī)器人崛起以及Slack等底層基礎(chǔ)設(shè)施的快速發(fā)展得出了過于樂觀的信號(hào)。當(dāng)然,聊天機(jī)器人最終的潛能肯定是非常巨大的,但它的真正成熟還需要很長的時(shí)間。目前為止,無論是“生產(chǎn)者”還是“消費(fèi)者”都需要調(diào)整一下對(duì)它的期望。實(shí)際上,Amazon Echo的成功正是在縮小了場(chǎng)景之后取得的,而用戶也不要指望機(jī)器人什么都能回答了。現(xiàn)階段把人引入到過程里面,把AI作為增強(qiáng)因素的解決方案和服務(wù)應(yīng)該是最看好的模式。
結(jié)論:
通過大數(shù)據(jù)與AI的黃金搭檔,我們正在進(jìn)入大數(shù)據(jù)技術(shù)的“收獲”階段。其潛能將非常巨大。
隨著核心基礎(chǔ)設(shè)施不斷走向成熟,以及在AI推動(dòng)下應(yīng)用側(cè)的爆發(fā),2017年的大數(shù)據(jù)(以及AI)生態(tài)體系將開足馬力,駛向光明的未來。