久久精品白浆扒开你的双腿,亚洲中文精品乱码,在线观看麻豆av

大數(shù)據(jù)的明天將駛向何方？

責任編輯：editor005

作者：Matt turck翻譯

2016-04-13 14:13:11

摘自：36Kr

這就是在經(jīng)過幾年引人矚目的初創(chuàng)企業(yè)如雨后春筍冒頭，VC 投資頻登頭條后，我們開始步入大數(shù)據(jù)的部署期和早期成熟期的原因。

編者注：原文是 FirstMark Capital 的 Matt Turck 的文章。本文全面總結了大數(shù)據(jù)領域的發(fā)展態(tài)勢，分析認為盡管大數(shù)據(jù)作為一個術語似乎已經(jīng)過氣，但是大數(shù)據(jù)分析與應用才剛剛開始興起，在與 AI、人工智能等新興技術的結合下，大數(shù)據(jù)的機會也許要比大家想象的還要大。

大數(shù)據(jù)是否“過氣”?

在喜新厭舊的技術初創(chuàng)企業(yè)界，已有 3年歷史 “大數(shù)據(jù)” 聽起來似乎已經(jīng)過氣了。雖然 Hadoop 在 2006年已經(jīng)出來，但 “大數(shù)據(jù)” 這個概念大概是在 2011 到 2014年左右才真正火起來的。也就是在這段時間里，至少是在媒體或者專家眼里，“大數(shù)據(jù)” 成為了新的 “金子” 或者 “石油”。然而，至少在我跟業(yè)界人士交談中，大家越來越感覺到這項技術已經(jīng)在某種程度上陷入了停滯。2015年可能是數(shù)據(jù)領域的那些酷小子轉移興趣，開始沉迷于 AI 以及機器智能、深度學習等許多相關概念的年份。

大數(shù)據(jù)

拋開不可避免的炒作周期曲線態(tài)勢不管，我們的 “大數(shù)據(jù)版圖” 已經(jīng)進入第 4 個年頭了，趁這個時候退一步來反思一下去年發(fā)生了什么，思考一下這個行業(yè)的未來會怎樣是很有意義的。

那么 2016年大數(shù)據(jù)到底還算不算回事兒呢?我們不妨探討一下。

大數(shù)據(jù)應用的兩個難點

大數(shù)據(jù)有趣的一點在于，它不再像當初經(jīng)歷過那樣有可能成為炒作的題材了。

經(jīng)過炒作周期后仍能引起廣泛興趣的產(chǎn)品和服務往往那些大家能夠接觸、可以感知，或者與大眾相關聯(lián)的：比如移動應用、社交網(wǎng)絡、可穿戴、虛擬現(xiàn)實等。

但大數(shù)據(jù)基本上就是管道設施的一種。當然，大數(shù)據(jù)為許多消費者或商業(yè)用戶體驗提供了動力，但它的核心是企業(yè)技術：數(shù)據(jù)庫、分析等，這些東西都是在后端運行的，沒幾個人能看得見。就像在那個世界工作的任何人都知道那樣，用一個晚上的時間就想適應企業(yè)端的新技術是不可能的。

大數(shù)據(jù)現(xiàn)象在早期主要是受到了與一批骨干互聯(lián)網(wǎng)公司(尤其是 Google、Facebook、Twitter 等)的共生關系的推動，這些公司既是核心大數(shù)據(jù)技術的重度用戶，同時也是這些技術的創(chuàng)造者。這些公司突然間面對著規(guī)模前所未有的龐大數(shù)據(jù)時，由于本身缺乏傳統(tǒng)的(昂貴的)基礎設施，也沒有辦法招募到一些最好的工程師，所以只好自己動手來開發(fā)所需的技術。

后來隨著開源運動的迅速發(fā)展，一大批此類新技術開始共享到更廣的范圍。然后，一些互聯(lián)網(wǎng)大公司的工程師離職去創(chuàng)辦自己的大數(shù)據(jù)初創(chuàng)企業(yè)。其他的一些 “數(shù)字原生” 公司，包括嶄露頭角的獨角獸公司，也開始面臨著互聯(lián)網(wǎng)大公司的類似需求，由于它們自身也沒有傳統(tǒng)的基礎設施，所以自然就成為了那些大數(shù)據(jù)技術的早期采用者。而早期的成功又導致了更多的創(chuàng)業(yè)活動發(fā)生，并獲得了更多的 VC 資助，從而帶動了大數(shù)據(jù)的起勢。

快速發(fā)展了幾年之后，現(xiàn)在我們面臨的是更加廣闊、但也更加棘手的機遇：讓中等規(guī)模到跨國公司級別的更大一批企業(yè)采用大數(shù)據(jù)技術。這些公司跟 “數(shù)字原生” 公司不一樣的是，他們沒有從零開始的有利條件。而且他們失去的會更多：這些公司絕大部分的現(xiàn)有技術基礎設施都是成功的。那些基礎設施當然未必是功能完備的，組織內(nèi)部許多人也意識到對自己的遺留基礎設施進行現(xiàn)代化應該是早點好過晚點，但他們不會一夜間就把自己的關鍵業(yè)務取代掉。

任何革命都需要過程、預算、項目管理、試點、局部部署以及完備的安全審計等。大企業(yè)對由年輕的初創(chuàng)企業(yè)來處理自己基礎設施的關鍵部分的謹慎是可以理解的。還有，令創(chuàng)業(yè)者感到絕望的是，許多(還是大多數(shù)?)企業(yè)仍頑固地拒絕把數(shù)據(jù)遷移到云端(至少不愿遷移到公有云)。

還需要理解的另一個關鍵是：大數(shù)據(jù)的成功不在于實現(xiàn)技術的某一方面(像 Hadoop 什么的)，而是需要把一連串的技術、人和流程糅合到一起。你得捕捉數(shù)據(jù)、存儲數(shù)據(jù)、清洗數(shù)據(jù)、查詢數(shù)據(jù)、分析數(shù)據(jù)并對數(shù)據(jù)進行可視化。這些工作一部分可以由產(chǎn)品來完成，而有的則需要人來做。一切都需要無縫集成起來。最后，要想讓所有這一切發(fā)揮作用，整個公司從上到下都需要樹立以數(shù)據(jù)驅動的文化，這樣大數(shù)據(jù)才不僅僅是個 “東西”，而且就是那個(關鍵的)“東西”。

換句話說：有一堆艱苦的工作要做。

嘗試還是觀望?

所以，這就是在經(jīng)過幾年引人矚目的初創(chuàng)企業(yè)如雨后春筍冒頭，VC 投資頻登頭條后，我們開始步入大數(shù)據(jù)的部署期和早期成熟期的原因。

更有前瞻性的大公司(姑且稱之為傳統(tǒng)技術采用周期的 “早期采用者”)在 2011 到 2013年間開始實驗大數(shù)據(jù)技術，推出了若干的 Hadoop 試點計劃(往往是因為趕時髦)或者嘗試一些點方案。他們招募了各種各樣此前并不存在的崗位(如 “數(shù)據(jù)科學家” 或 “首席數(shù)據(jù)官”)。

他們進行了各種努力，包括吧全部數(shù)據(jù)都堆到一個數(shù)據(jù)容器(“data lake”)，然后希望緊跟著就會發(fā)生奇跡(往往不會)。他們逐步建設自己的內(nèi)部能力，試驗了各種供應商，從試點計劃到生產(chǎn)中的局部部署，然后到現(xiàn)在爭論要不要全企業(yè)鋪開(全范圍鋪開實施的情況還很罕見)。

許多情況下，他們正處在這樣一個重要的拐點上，即經(jīng)過大數(shù)據(jù)基礎設施的數(shù)年建設后，能夠展示的成果還不多，至少在公司內(nèi)部的商業(yè)用戶看來是這樣的。但是大量吃力不討好的工作已經(jīng)做完了，現(xiàn)在開始進入到有影響力的應用部署階段了。只是從目前來看，這種建構在核心架構之上的應用數(shù)量還不成比例。

接下來的一波大公司(稱之為傳統(tǒng)技術采用周期的 “早期多數(shù)使用者”)大多數(shù)時候對大數(shù)據(jù)技術是持觀望態(tài)度的，對于整個大數(shù)據(jù)方面的東西，他們還在心存一定程度困惑中觀望。直到最近，他們還在指望某個大型供應商(比如 IBM)會提供一個一站式的解決方案，不過現(xiàn)在看來這種情況近期內(nèi)并不會出現(xiàn)。他們看待這個大數(shù)據(jù)版圖的態(tài)度是心懷恐懼，在想自己是不是真的需要跟這一堆看起來并沒有什么不同的初創(chuàng)企業(yè)合作，然后修補出各種解決方案。

生態(tài)體系正在成熟

與此同時，在初創(chuàng)企業(yè) / 供應商這一塊，整個第一波的大數(shù)據(jù)公司(2009 至 2013年間成立的那批)現(xiàn)在已經(jīng)融了數(shù)輪的資金，企業(yè)規(guī)模已經(jīng)得到了擴大，并且從早期部署的成功或失敗中學到了東西，現(xiàn)在他們已經(jīng)能夠提供更成熟的、經(jīng)受過考驗的產(chǎn)品了。少數(shù)一些已經(jīng)成為了上市公司(包括 2015年上市的 HortonWorks 和 New Relic)，而有的(比如 Cloudera、MongoDB 等)融資已經(jīng)達上億美元了。

這個領域的 VC 融資活動仍然很有生氣，2016年的前幾周我們見證好幾輪相當可觀的后期階段大數(shù)據(jù)融資事件：DataDog(9400 萬美元)，BloomReach(5600 萬美元)，Qubole(3000 萬美元)，PlaceIQ(2500 萬美元)等。2015年大數(shù)據(jù)初創(chuàng)企業(yè)拿到的融資額達到了 66.4 億美元，占整個技術 VC 總融資額額 11%。

并購活動則開展得中規(guī)中矩(自從上一版大數(shù)據(jù)版圖發(fā)布以來完成了 34 項并購，具體可參見附注)

隨著該領域的創(chuàng)業(yè)活動持續(xù)進行以及資金的不斷流入，加上適度的少量退出，以及越來越活躍的技術巨頭(尤其是 Amazon、Google、IBM)，使得這個領域的公司日益增多，最后匯成了這幅 2016 版的大數(shù)據(jù)版圖。

(點擊放大圖像)

顯然這張圖已經(jīng)很擠了，而且還有很多都沒辦法列進去(關于我們的方法論可以參見附注)

在基本趨勢方面，行動開始慢慢從左轉到右(即創(chuàng)新、推出新產(chǎn)品和新公司)，從基礎設施層(開發(fā)者 / 工程師的世界)轉移到分析層(數(shù)據(jù)科學家和分析師的世界)乃至應用層(商業(yè)用戶和消費者的世界)，“大數(shù)據(jù)原生應用” 已經(jīng)在迅速冒頭—這多少符合了我們原先的一些預期。

大數(shù)據(jù)基礎設施：仍有大量創(chuàng)新

Google 關于 MapReduce 和 BigTable 的論文(Cutting 和 MikeCafarella 因為這個而做出了 Hadoop)的誕生問世已有 10年了，在這段時間里，大數(shù)據(jù)的基礎設施層已經(jīng)逐漸成熟，一些關鍵問題也得到了解決。

但是，基礎設施領域的創(chuàng)新仍然富有活力，這很大程度上是得益于可觀的開源活動規(guī)模。

2015年無疑是 Apache Spark 之年。自我們發(fā)布上一版大數(shù)據(jù)版圖以來，這個利用了內(nèi)存處理的開源框架就開始引發(fā)眾多討論。自那以后，Spark 受到了從 IBM 到 Cloudera 的各式玩家的擁護，讓它獲得了可觀的信任度。Spark 的出現(xiàn)是很有意義的，因為它解決了一些導致 Hadoop 采用放緩的關鍵問題：Spark 速度變快了很多(基準測試表明 Spark 比 Hadoop 的 MapReduce 快 10 到 100 倍)，更容易編程，并且跟機器學習能夠很好地搭配。

除了 Spark 以外，還出現(xiàn)了其他的一些令人興奮的框架，比如 Flink、Ignite、Samza、Kudu 等，這些框架的發(fā)展勢頭也很好。一些思想領袖認為，Mesos(數(shù)據(jù)中心資源管理系統(tǒng)，把數(shù)據(jù)中心當作一臺大計算資源池進行編程)的出現(xiàn)也刺激了對 Hadoop 的需求。

即便在數(shù)據(jù)庫的世界里，新興的玩家似乎也越來越多。多到市場已經(jīng)難以承受的地步，這里發(fā)生了很多令人興奮的事情，從圖形數(shù)據(jù)庫(如 Neo4j )的成熟，到專門數(shù)據(jù)庫的推出(如統(tǒng)計時序數(shù)據(jù)庫 InfluxDB)，乃至于 CockroachDB 的出現(xiàn)(受 Google Spanner 靈感啟發(fā)誕生的融合了 SQL 與 NoSQL 長處的新型數(shù)據(jù)庫)。數(shù)據(jù)倉庫也在演變(如云數(shù)據(jù)倉庫 Snowflake)。

大數(shù)據(jù)分析下一步的趨勢是什么?

大數(shù)據(jù)分析過去幾個月出現(xiàn)的一股趨勢是，越來越關注利用人工智能(形式和風格各異)來幫助分析大規(guī)模的數(shù)據(jù)，從而獲得預測性的洞察。

其實最近出現(xiàn)復興的 AI 很大程度上算是大數(shù)據(jù)的產(chǎn)物。深度學習(最近受到關注最多的 AI 領域)背后的算法基本上是幾十年前就誕生了的，但直到最近能夠以足夠便宜、足夠快速地應用到大規(guī)模數(shù)據(jù)之后才發(fā)揮出了它的最大潛能。AI 與大數(shù)據(jù)之間的關系如此緊密，以至于業(yè)界專家現(xiàn)在認為 AI 已經(jīng)令人懊惱地 “與大數(shù)據(jù)陷入了熱戀當中”。

不過反過來，AI 現(xiàn)在也在幫助大數(shù)據(jù)實現(xiàn)后者的承諾。分析對 AI/ 機器學習越來越多的關注也符合大數(shù)據(jù)下一步演進的趨勢：現(xiàn)在數(shù)據(jù)我都有了，但究竟從中能得到什么樣的洞察呢? 當然，這件事情可以讓數(shù)據(jù)科學家來解決，從一開始他們的角色就是實現(xiàn)機器學習，否則的話就得想出模型來發(fā)現(xiàn)數(shù)據(jù)的意義。

但是機器智能現(xiàn)在正在逐漸發(fā)揮輔助數(shù)據(jù)科學家的作用—只需要倒騰數(shù)據(jù)，新興的產(chǎn)品就能從中提煉出數(shù)學公式(如 Context Relevant)或者自動建立和推薦最有可能返回最佳結果的數(shù)據(jù)科學模型(如 DataRobot)。一批新的 AI 公司提供的產(chǎn)品能夠自動識別像圖像這樣的復雜實體(如 Clarifai、Dextro)，或者提供強大的預測性分析(如 HyperScience)。

同時，隨著基于無監(jiān)督學習的產(chǎn)品的傳播和改善，看看它們與數(shù)據(jù)科學家之間的關系如何演變將非常有趣—將來這兩者是敵還是友呢?AI 當然不會很快取代數(shù)據(jù)科學家的位置，但預計會看到數(shù)據(jù)科學家通常執(zhí)行的更簡單一點的工作越來越多的自動化，從而可以極大提高生產(chǎn)力。

但不管怎樣，AI/ 機器學習絕不是大數(shù)據(jù)分析唯一值得關注的趨勢。大數(shù)據(jù) BI 平臺的普遍成熟及其日益增強的實時能力也是一個令人興奮的趨勢(如 SiSense、Arcadia Data 等)。

大數(shù)據(jù)應用：真正的加速

隨著一些核心基礎設施的挑戰(zhàn)得到解決，大數(shù)據(jù)應用層正在快速構建。

在企業(yè)內(nèi)部，已經(jīng)出現(xiàn)了各種工具來幫助跨多個核心職能的企業(yè)用戶。比方說，銷售和營銷的大數(shù)據(jù)應用通過處理大規(guī)模的內(nèi)外部數(shù)據(jù)來幫助找出哪位客戶可能會購買、續(xù)約或者流失，且速度越來越實時化?？头脦椭鷤€性化服務。人力應用幫助找出如何吸引和挽留最好的員工等。

專門的大數(shù)據(jù)應用幾乎在任何一個垂直行業(yè)都有出現(xiàn)，從醫(yī)療保健(尤其是基因組學和藥物研究)到金融、時尚乃至于執(zhí)法(如 Mark43)。

有兩個趨勢值得強調一下。

首先，這些應用很多都是 “大數(shù)據(jù)原生” 的，本身都是依托在最新的大數(shù)據(jù)技術基礎上開發(fā)的，代表了一種客戶無須部署底層大數(shù)據(jù)技術即可利用大數(shù)據(jù)的有趣方式—因為那些底層技術已經(jīng)是打包的，至少對于特定功能來說是這樣的。比方說，ActionIQ 就是在 Spark 基礎上開發(fā)的(或者說是 Spark 的一個派生)，所以它的客戶能夠在營銷部門利用 Spark 的威力而不需要自己部署 Spark，這種情況下是沒有 “裝配線” 的。

其次，AI 在應用層也有很強大的存在。比方說，在貓捉老鼠的安全領域中，AI 被廣泛用來對付黑客，實時識別和對抗網(wǎng)絡攻擊。去年已經(jīng)出現(xiàn)了一個 AI 驅動的數(shù)字助手行業(yè)，支持從任務自動化到會議安排(如 x.ai)以及購物等幾乎一切事情。這些解決方案對 AI 的依賴程度不一，從幾乎 100%自動化到 “有人參與” 等情況各不相同，但是可以明確的是，人的能力在 AI 幫助下得到了增強。

結論

從很多方面來看，我們?nèi)匀惶幵诖髷?shù)據(jù)現(xiàn)象的早期發(fā)展階段。盡管已經(jīng)花費了數(shù)年時間，但減少基礎設施來存儲和處理大規(guī)模數(shù)據(jù)還只是第一階段。AI/ 機器學習已經(jīng)成為大數(shù)據(jù)應用層的一股迅猛趨勢。大數(shù)據(jù)與 AI 的結合將會推動很多行業(yè)的驚人創(chuàng)新。從這個角度來說，大數(shù)據(jù)的機會也許要比大家想象的還要大。

然而，隨著大數(shù)據(jù)繼續(xù)走向成熟，這個術語本身可能會消失，或者變得太過時以至于沒有人會再使用這個詞。這就是成功賦能技術令人諷刺的命運歸宿—由于技術的廣泛傳播，然后到達無所不在的地步，最后被人熟視無睹。

英文原文：http://mattturck.com/2016/02/01/big-data-landscape/

圖形數(shù)據(jù)庫數(shù)據(jù)中心