2016年,大數(shù)據(jù)還是回事么?

責(zé)任編輯:editor004

作者:董老師

2016-02-25 10:38:42

摘自:36kr

能夠獲得廣泛興趣的產(chǎn)品和服務(wù)往往是那些人們可以觸摸和感受到的,比如:移動(dòng)應(yīng)用,社交網(wǎng)絡(luò),可穿戴設(shè)備,虛擬現(xiàn)實(shí)等。

2016年,大數(shù)據(jù)還是回事么?

本文中的 Big Data Landscape 圖筆者隨手分享在 LinkedIn 上,不曉得引起大量轉(zhuǎn)發(fā)和評(píng)論,截止本周,得到 6700 個(gè) like,3800 次 share,400 多條 comment,筆者也覺(jué)得很神奇。這里就跟從事大數(shù)據(jù)或者投資領(lǐng)域的朋友推薦一下。原文作者是 VC First Mark 的 Mark Turck,提下這一家 VC,主要投資于早期階段技術(shù)類(lèi)公司的風(fēng)險(xiǎn)投資機(jī)構(gòu),包括新興媒體、廣告、游戲、教育、云計(jì)算、分析和基礎(chǔ)設(shè)備等方向。大家熟悉的 Airbnb,Pinterest,Shopify 都有它的投資身影。

技術(shù)型的高科技創(chuàng)業(yè)公司都是喜歡閃閃發(fā)光的新東西,而 “大數(shù)據(jù)” 跟 3年 前火熱程度相比反而有些凄慘。雖然 Hadoop 創(chuàng)建于 2006年,在 “大數(shù)據(jù)” 的概念興起到達(dá)白熱化是在 2011年 至 2014年 期間,當(dāng)時(shí)在媒體和行業(yè)面前,大數(shù)據(jù)就是 “黑金石油”。但是現(xiàn)在有了某種高原感。 2015年 數(shù)據(jù)世界中時(shí)尚年輕人喜歡轉(zhuǎn)移到 AI 的相關(guān)概念,他們口味變成:機(jī)器智能,深度學(xué)習(xí)等。

2016年 大數(shù)據(jù)還是 “回事” 么?讓我們深度挖掘。

企業(yè)級(jí)技術(shù) = 艱苦的工作

其實(shí)大數(shù)據(jù)有趣的是它不是直接可以炒作的東西。

能夠獲得廣泛興趣的產(chǎn)品和服務(wù)往往是那些人們可以觸摸和感受到的,比如:移動(dòng)應(yīng)用,社交網(wǎng)絡(luò),可穿戴設(shè)備,虛擬現(xiàn)實(shí)等。

但大數(shù)據(jù),從根本上說(shuō)是 “管道”。當(dāng)然,大數(shù)據(jù)支持許多消費(fèi)者或企業(yè)用戶體驗(yàn),但其核心是企業(yè)的技術(shù):數(shù)據(jù)庫(kù),分析等:而這后面幾乎沒(méi)人能看到東西運(yùn)行。

而且如果大家真正工作過(guò)的都知道,在企業(yè)中改造新技術(shù)并不大可能在一夜之間發(fā)生。

早年的大數(shù)據(jù)是在大型互聯(lián)網(wǎng)公司中(特別是谷歌,雅虎,F(xiàn)acebook,Twitter,LinkedIn 等),它們重度使用和推動(dòng)大數(shù)據(jù)技術(shù)。這些公司突然面臨著前所未有的數(shù)據(jù)量,沒(méi)有以前的基礎(chǔ)設(shè)施,并能招到一些最好的工程師,所以他們基本上是從零開(kāi)始搭建他們所需要的技術(shù)。開(kāi)源的風(fēng)氣迅速蔓延,大量的新技術(shù)與更廣闊的世界共享。隨著時(shí)間推移,其中一些工程師離開(kāi)了大型網(wǎng)絡(luò)公司,開(kāi)始自己的大數(shù)據(jù)初創(chuàng)公司。其他的 “數(shù)字原生” 的公司,其中包括許多獨(dú)角獸,開(kāi)始面臨跟大型互聯(lián)網(wǎng)公司同樣需求,無(wú)論有沒(méi)有基礎(chǔ)設(shè)施,它們都是這些大數(shù)據(jù)技術(shù)的早期采用者。而早期的成功導(dǎo)致更多的創(chuàng)業(yè)和風(fēng)險(xiǎn)投資。

現(xiàn)在一晃幾年了,我們現(xiàn)在是有大得多而棘手的機(jī)會(huì):數(shù)據(jù)技術(shù)通過(guò)更廣泛從中型企業(yè)到非常大的跨國(guó)公司。不同的是 “數(shù)字原生” 的公司,不必從頭開(kāi)始做。他們也有很多損失:在絕大多數(shù)的公司,現(xiàn)有的技術(shù)基礎(chǔ)設(shè)施 “夠用”。這些組織也明白,宜早不宜遲需要進(jìn)化,但他們不會(huì)一夜之間淘汰并更換關(guān)鍵任務(wù)的系統(tǒng)。任何發(fā)展都需要過(guò)程,預(yù)算,項(xiàng)目管理,導(dǎo)航,部門(mén)部署,全面的安全審計(jì)等。大型企業(yè)會(huì)小心謹(jǐn)慎地讓年輕的創(chuàng)業(yè)公司處理他們的基礎(chǔ)設(shè)施的關(guān)鍵部分。而且,一些(大多數(shù)?)企業(yè)家壓根不想把他們的數(shù)據(jù)遷移到云中,至少不是公有云。

(大數(shù)據(jù)分析的基本流程圖)

從另一個(gè)關(guān)鍵點(diǎn)大家就明白了:大數(shù)據(jù)的成功是不是實(shí)現(xiàn)一小片技術(shù)(如 Hadoop 的或其他任何東西),而是需要放在一起的技術(shù),人員,流程的流水線。你需要采集數(shù)據(jù),存儲(chǔ)數(shù)據(jù),清理數(shù)據(jù),查詢數(shù)據(jù),分析數(shù)據(jù),可視化數(shù)據(jù)。這將由產(chǎn)品來(lái)完成,有些由人力來(lái)完成。一切都需要無(wú)縫集成。歸根結(jié)底,對(duì)于這一切工作,整個(gè)公司,從高級(jí)管理人員開(kāi)始,需要致力于建立一個(gè)數(shù)據(jù)驅(qū)動(dòng)的文化,大數(shù)據(jù)不是小事,而是全局的事。

換句話說(shuō):這是大量艱苦的工作。

部署階段

以上解釋了為什么幾年后,雖然很多高調(diào)的創(chuàng)業(yè)公司上線也拿到引人注目的風(fēng)險(xiǎn)投資,但只是到達(dá)大數(shù)據(jù)部署和早期成熟階段。

更有遠(yuǎn)見(jiàn)的大公司(稱(chēng)他們?yōu)?“嘗鮮者” 在傳統(tǒng)的技術(shù)采用周期),在 2011 - 2013年 開(kāi)始早期實(shí)驗(yàn)大數(shù)據(jù)技術(shù),推出 Hadoop 系統(tǒng),或嘗試單點(diǎn)解決方案。他們招聘了形形色色的人,可能工作頭銜以前不存在(如 “數(shù)據(jù)科學(xué)家” 或 “首席數(shù)據(jù)官”)。他們通過(guò)各種努力,包括在一個(gè)中央儲(chǔ)存庫(kù)或 “數(shù)據(jù)湖” 傾倒所有的數(shù)據(jù),有時(shí)希望魔術(shù)隨之而來(lái)(通常沒(méi)有)。他們逐步建立內(nèi)部競(jìng)爭(zhēng)力,與不同廠商嘗試,部署到線上,討論在企業(yè)范圍內(nèi)實(shí)施推廣。在許多情況下,他們不知道下一個(gè)重要的拐點(diǎn)在哪里,經(jīng)過(guò)幾年建設(shè)大數(shù)據(jù)基礎(chǔ)架構(gòu),從他們公司業(yè)務(wù)用戶的角度來(lái)看,也沒(méi)有那么多東西去顯示它。但很多吃力不討好的工作已經(jīng)完成,而部署在核心架構(gòu)之上的應(yīng)用程序又要開(kāi)始做了。

下一組的大公司(稱(chēng)他們?yōu)?“早期大眾” 在傳統(tǒng)的技術(shù)采用周期)一直呆在場(chǎng)邊,還在迷惑的望著這整個(gè)大數(shù)據(jù)這玩意。直到最近,他們希望大供應(yīng)商(例如 IBM)提供一個(gè)一站式的解決方案,但它們知道不會(huì)很快出現(xiàn)。他們看大數(shù)據(jù)全局圖很恐怖,就真的想知道是否要跟那些經(jīng)常發(fā)音相同,也就湊齊解決方案的創(chuàng)業(yè)公司一起做。他們?cè)噲D弄清楚他們是否應(yīng)該按順序并逐步工作,首先構(gòu)建基礎(chǔ)設(shè)施,然后再分析應(yīng)用層,或在同一時(shí)間做所有的,還是等到更容易做的東西出現(xiàn)。

生態(tài)系統(tǒng)正在走向成熟

同時(shí),創(chuàng)業(yè)公司 / 供應(yīng)商方面,大數(shù)據(jù)公司整體第一波(那些成立于 2009年 至 2013)現(xiàn)在已經(jīng)融資多輪,擴(kuò)大他們的規(guī)模,積累了早期部署的成功與失敗教訓(xùn),也提供更成熟,久經(jīng)考驗(yàn)的產(chǎn)品。現(xiàn)在有少數(shù)是上市公司(包括 HortonWorks 和 New Relic 它們的 IPO 在 2014年12月),而其他(Cloudera,MongoDB 的,等等)都融了數(shù)億美元。

VC 投資仍然充滿活力,2016年 前幾個(gè)星期看到一些巨額融資的晚期大數(shù)據(jù)初創(chuàng)公司:DataDog(9400 萬(wàn)),BloomReach(5600 萬(wàn)),Qubole(3000 萬(wàn)), PlaceIQ( 2500 萬(wàn))這些大數(shù)據(jù)初創(chuàng)公司在 2015年 收到的 $ 66.4 億創(chuàng)業(yè)投資,占高科技投資總額的 11%。

并購(gòu)活動(dòng)仍然不高(35 次)。

隨創(chuàng)業(yè)活動(dòng)和資金的持續(xù)涌入,有些不錯(cuò)的資本退出,日益活躍的高科技巨頭(亞馬遜,谷歌和 IBM),公司數(shù)量不斷增加,這里就是 2016年 大數(shù)據(jù)全景圖:

2016年2月12日 修訂,(本文最有價(jià)值的圖,大圖可以微信號(hào)回復(fù) big data 下載)

很顯然這里密密麻麻很多公司,從基本走勢(shì)方面,動(dòng)態(tài)的(創(chuàng)新,推出新的產(chǎn)品和公司)已逐漸從左向右移動(dòng),從基礎(chǔ)設(shè)施層(開(kāi)發(fā)人員 / 工程師)到分析層(數(shù)據(jù)科學(xué)家和分析師的世界)到應(yīng)用層(商業(yè)用戶和消費(fèi)者),其中 “大數(shù)據(jù)的本地應(yīng)用程序” 已經(jīng)迅速崛起- 這是我們預(yù)計(jì)的格局。

大數(shù)據(jù)基礎(chǔ)架構(gòu):創(chuàng)新仍然有很多

正是因?yàn)楣雀枋昵暗?MapReduce 和 BigTable 的論文,Doug Cutting, Mike Cafarella 開(kāi)發(fā) 創(chuàng)建 Hadoop 的,所以大數(shù)據(jù)的基礎(chǔ)架構(gòu)層成熟了,也解決了一些關(guān)鍵問(wèn)題。

而基礎(chǔ)設(shè)施領(lǐng)域的不斷創(chuàng)新蓬勃發(fā)展還是通過(guò)大量的開(kāi)源活動(dòng)。

(Spark 帶著 Hadoop 飛)

2015年 毫無(wú)疑問(wèn)是 Apache Spark 最火的一年,這是一個(gè)開(kāi)源框架,利用內(nèi)存中做處理。這開(kāi)始得到了不少爭(zhēng)論,從我們發(fā)布了前一版本以來(lái),Spark 被各個(gè)對(duì)手采納,從 IBM 到 Cloudera 都給它相當(dāng)?shù)闹С帧?Spark 的意義在于它有效地解決了一些使用 Hadoop 很慢的關(guān)鍵問(wèn)題:它的速度要快得多(基準(zhǔn)測(cè)試表明:Spark 比 Hadoop 的 MapReduce 的快 10 到 100 倍),更容易編寫(xiě),并非常適用于機(jī)器學(xué)習(xí)。

其他令人興奮的框架的不斷涌現(xiàn),并獲得新的動(dòng)力,如 Flink,Ignite,Samza,Kudu 等。一些思想領(lǐng)袖認(rèn)為 Mesos 的出現(xiàn)(一個(gè)框架以 “對(duì)你的數(shù)據(jù)中心編程就像是單一的資源池”),不需要完全的 Hadoop。即使是在數(shù)據(jù)庫(kù)的世界,這似乎已經(jīng)看到了更多的新興的玩家讓市場(chǎng)持續(xù),大量令人興奮的事情正在發(fā)生,從圖形數(shù)據(jù)庫(kù)的成熟(Neo4j),此次推出的專(zhuān)業(yè)數(shù)據(jù)庫(kù)(時(shí)間序列數(shù)據(jù)庫(kù) InfluxDB),CockroachDB,(受到谷歌 Spanner 啟發(fā)出現(xiàn),號(hào)稱(chēng)提供二者最好的 SQL 和 NoSQL),數(shù)據(jù)倉(cāng)庫(kù)演變(Snowflake)。

大數(shù)據(jù)分析:現(xiàn)在的 AI

在過(guò)去幾個(gè)月的大趨勢(shì)上,大數(shù)據(jù)分析已經(jīng)越來(lái)越注重人工智能(各種形式和接口),去幫助分析海量數(shù)據(jù),得出預(yù)測(cè)的見(jiàn)解。

最近 AI 的復(fù)活就好比大數(shù)據(jù)生的一個(gè)孩子。深度學(xué)習(xí)(獲取了最多的人工智能關(guān)注的領(lǐng)域)背后的算法大部分在幾十年前,但直到他們可以應(yīng)用于代價(jià)便宜而速度夠快的大量數(shù)據(jù)來(lái)充分發(fā)揮其潛力(Yann LeCun, Facebook 深度學(xué)習(xí)研究員主管)。 AI 和大數(shù)據(jù)之間的關(guān)系是如此密切,一些業(yè)內(nèi)專(zhuān)家現(xiàn)在認(rèn)為,AI 已經(jīng)遺憾地 “愛(ài)上了大數(shù)據(jù)”(Geometric Intelligence)。

反過(guò)來(lái),AI 現(xiàn)在正在幫助大數(shù)據(jù)實(shí)現(xiàn)承諾。AI / 機(jī)器學(xué)習(xí)的分析重點(diǎn)變成大數(shù)據(jù)進(jìn)化邏輯的下一步:現(xiàn)在我有這些數(shù)據(jù),我該怎么從中提取哪些洞察?當(dāng)然,這其中的數(shù)據(jù)科學(xué)家們 - 從一開(kāi)始他們的作用就是實(shí)現(xiàn)機(jī)器學(xué)習(xí)和做出有意義的數(shù)據(jù)模型。但漸漸地機(jī)器智能正在通過(guò)獲得數(shù)據(jù)去協(xié)助數(shù)據(jù)科學(xué)家。新興產(chǎn)品可以提取數(shù)學(xué)公式(Context Relevant)或自動(dòng)構(gòu)建和建議數(shù)據(jù)的科學(xué)模式,有可能產(chǎn)生最好的結(jié)果(DataRobot)。新的 AI 公司提供自動(dòng)完成復(fù)雜的實(shí)體的標(biāo)識(shí)(MetaMind,Clarifai,Dextro),或者提供強(qiáng)大預(yù)測(cè)分析(HyperScience)。

由于無(wú)監(jiān)督學(xué)習(xí)的產(chǎn)品傳播和提升,我們有趣的想知道 AI 與數(shù)據(jù)科學(xué)家的關(guān)系如何演變 - 朋友還是敵人? AI 是肯定不會(huì)在短期內(nèi)很快取代數(shù)據(jù)科學(xué)家,而是希望看到數(shù)據(jù)科學(xué)家通常執(zhí)行的簡(jiǎn)單任務(wù)日益自動(dòng)化,最后生產(chǎn)率大幅提高。

通過(guò)一切手段,AI / 機(jī)器學(xué)習(xí)不是大數(shù)據(jù)分析的唯一趨勢(shì)。令人興奮的趨勢(shì)是大數(shù)據(jù) BI 平臺(tái)的成熟及其日益增強(qiáng)的實(shí)時(shí)能力(SiSense,Arcadia)

大數(shù)據(jù)應(yīng)用:一個(gè)真正的加速度

由于一些核心基礎(chǔ)架構(gòu)難題都已解決,大數(shù)據(jù)的應(yīng)用層迅速建立。

在企業(yè)內(nèi)部,各種工具已經(jīng)出現(xiàn),以幫助企業(yè)用戶操作核心功能。例如,大數(shù)據(jù)通過(guò)大量的內(nèi)部和外部的數(shù)據(jù),實(shí)時(shí)更新數(shù)據(jù),可以幫助銷(xiāo)售和市場(chǎng)營(yíng)銷(xiāo)弄清楚哪些客戶最有可能購(gòu)買(mǎi)??蛻舴?wù)應(yīng)用可以幫助個(gè)性化服務(wù); HR 應(yīng)用程序可幫助找出如何吸引和留住最優(yōu)秀的員工;等

專(zhuān)業(yè)大數(shù)據(jù)應(yīng)用已經(jīng)在幾乎任何垂直領(lǐng)域都很出色,從醫(yī)療保?。ㄌ貏e是在基因組學(xué)和藥物研究),到財(cái)經(jīng)到時(shí)尚到司法(Mark43)。

兩個(gè)趨勢(shì)值得關(guān)注。

首先,很多這些應(yīng)用都是 “大數(shù)據(jù)同鄉(xiāng)”,因?yàn)樗麄儽旧砭褪墙⒃谧钚碌拇髷?shù)據(jù)技術(shù),并代表客戶能夠充分利用大數(shù)據(jù)的有效方式,無(wú)需部署底層的大數(shù)據(jù)技術(shù),因?yàn)檫@些已 “在一個(gè)盒子 “,至少是對(duì)于那些特定功能 - 例如,ActionIQ 是建立在 Spark 上,因此它的客戶可以充分利用他們的營(yíng)銷(xiāo)部門(mén) Spark 的權(quán)力,而無(wú)需實(shí)際部署 Spark 自己 - 在這種情況下,沒(méi)有 “流水線”。

第二,人工智能同樣在應(yīng)用程序級(jí)別有強(qiáng)大吸引力。例如,在貓捉老鼠的游戲,安全上,AI 被廣泛利用,它可以識(shí)別黑客和打擊網(wǎng)絡(luò)攻擊。 “人工智能” 對(duì)沖基金也開(kāi)始出現(xiàn)。全部由 AI 驅(qū)動(dòng)數(shù)字助理行業(yè)已經(jīng)去年出現(xiàn),從自動(dòng)安排會(huì)議(x.ai)任務(wù),到購(gòu)物為您帶來(lái)一切。這些解決方案依賴人工智能的程度差別很大,從接近 100%的自動(dòng)化,到個(gè)人的能力被 AI 增強(qiáng) - 但是,趨勢(shì)是明確的。

結(jié)論

在許多方面,我們?nèi)蕴幱诖髷?shù)據(jù)的早期。盡管它發(fā)展了幾年,建設(shè)存儲(chǔ)和數(shù)據(jù)的過(guò)程只是第一階段的基礎(chǔ)設(shè)施。 AI / 機(jī)器學(xué)習(xí)出現(xiàn)在大數(shù)據(jù)的應(yīng)用層的趨勢(shì)。大數(shù)據(jù)和 AI 的結(jié)合將推動(dòng)幾乎每一個(gè)行業(yè)的創(chuàng)新,這令人難以置信。從這個(gè)角度來(lái)看,大數(shù)據(jù)機(jī)會(huì)甚至可能比人們認(rèn)為的還大。

隨著大數(shù)據(jù)的不斷成熟,這個(gè)詞本身可能會(huì)消失或者變得過(guò)時(shí),沒(méi)有人會(huì)使用它了。它是成功通過(guò)技術(shù),變得很普遍,無(wú)處不在,并最終無(wú)形化。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)