2018年有很多明顯的跡象表明,這十年中快速崛起的大數(shù)據(jù)市場(chǎng),正在以不同的形式沉淀下來(lái)。未來(lái)幾年,大數(shù)據(jù)分析市場(chǎng)甚至可能不會(huì)被稱為“大數(shù)據(jù)”,因?yàn)楹芏啻髷?shù)據(jù)分析取得的進(jìn)展都是針對(duì)人工智能的,盡管其核心是數(shù)據(jù)驅(qū)動(dòng)的,但實(shí)際上并不一定要依賴于大量的數(shù)據(jù)才能在應(yīng)用中發(fā)揮作用。
展望2019年,分析公司W(wǎng)ikibon預(yù)測(cè)大數(shù)據(jù)分析將會(huì)出現(xiàn)以下一些趨勢(shì):
· 公有云提供商正在吸收大多數(shù)大數(shù)據(jù)分析增長(zhǎng)的新機(jī)會(huì)
· 企業(yè)正在將越來(lái)越多的大數(shù)據(jù)分析工作負(fù)載轉(zhuǎn)移到公有云,并在這些環(huán)境中開(kāi)發(fā)更多的綠地應(yīng)用。
· 2019年,三大公有云提供商AWS、微軟Azure和Google Cloud將加大力度,幫助企業(yè)將數(shù)據(jù)從本地平臺(tái)遷移出來(lái)。
其他公有云提供商將難以保持自己在大數(shù)據(jù)分析市場(chǎng)的份額。2018年,來(lái)自公有云領(lǐng)導(dǎo)廠商的壓力迫使IBM收購(gòu)了RedHat。展望未來(lái),IBM、Oracle和其他公有云提供商將更加強(qiáng)調(diào)混合云解決方案,幫助客戶集中管理分布在私有云和公有云之間的大數(shù)據(jù)資產(chǎn)。
此外,越來(lái)越多的大數(shù)據(jù)公有云提供商將基礎(chǔ)設(shè)施及服務(wù)和平臺(tái)即服務(wù)細(xì)分市場(chǎng)拱手讓給AWS、微軟和Google,并將轉(zhuǎn)向?yàn)闃I(yè)務(wù)線和特定行業(yè)提供軟件服務(wù)分析應(yīng)用。例如,Snowflake Computing就在云數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)大獲成功,2018年得到了4.5億美元的資金以保持增長(zhǎng)勢(shì)頭。
大數(shù)據(jù)分析生態(tài)系統(tǒng)正在深入云原生環(huán)境
開(kāi)源軟件Kubernetes是一種針對(duì)管理需要在云和本地?cái)?shù)據(jù)中心之間輕松遷移的應(yīng)用的軟件容器,是新一代云原生大數(shù)據(jù)的基礎(chǔ)。過(guò)去一年中,這個(gè)市場(chǎng)最引人注目的趨勢(shì)就是圍繞Kubernetes的數(shù)據(jù)生態(tài)系統(tǒng)“再結(jié)晶”。
云原生大數(shù)據(jù)架構(gòu)的發(fā)展,推動(dòng)了2018年大量資金和并購(gòu)活動(dòng)的活躍。這就解釋了為什么專注于多云分布式內(nèi)存數(shù)據(jù)的Pivotal在其首次公開(kāi)募股中就獲得了5.55億美元的資金;Talend收購(gòu)Stitch,是因?yàn)槭袌?chǎng)需要一種更簡(jiǎn)單的工具來(lái)加載數(shù)據(jù)到云數(shù)據(jù)倉(cāng)庫(kù);Cloudian收購(gòu)Infinity Storage的一個(gè)重要原因,是企業(yè)對(duì)基于云的可擴(kuò)展文件存儲(chǔ)和對(duì)象存儲(chǔ)的要求越來(lái)越高。
Wikibon預(yù)測(cè),2019年Open Hybrid Architecture Initiative將開(kāi)始實(shí)施HDFS、MapReduce、HBase、Hive、Pig、YARN和其他Hadoop主要組件的模塊化和容器化計(jì)劃。此外,主要贊助方——即將成為Cloudera 和IBM/Red Hat一部分的Hortonworks公司——將在2019年初提供下一代商用Hadoop解決方案,將這一架構(gòu)融入他們各自的混合云解決方案組合中,其他云解決方案提供商也會(huì)緊隨其后。
2019年,Spark、TensorFlow、流媒體、分布式對(duì)象存儲(chǔ)和塊存儲(chǔ)細(xì)分領(lǐng)域中類似的容器化項(xiàng)目也將開(kāi)始實(shí)施,因?yàn)檎麄€(gè)大數(shù)據(jù)堆棧將在基于Kubernetes的DevOps環(huán)境中通過(guò)解耦來(lái)實(shí)現(xiàn)更靈活的部署和管理。
大數(shù)據(jù)分析平臺(tái)提供商均在大力投資數(shù)據(jù)科學(xué)工具鏈
大數(shù)據(jù)分析解決方案提供商正在爭(zhēng)相贏得新一代AI項(xiàng)目開(kāi)發(fā)人員的心。過(guò)去幾年中,市場(chǎng)中涌現(xiàn)了眾多新一代數(shù)據(jù)科學(xué)工作臺(tái),包括Anaconda、Dataiku、DataKitchen、DataRobot、Dimensional Mechanics、Domino Data Lab、H2O.ai、Hydrosphere.io、Kogentix、Pipeline.ai和Seldon。此外,老牌大數(shù)據(jù)分析廠商如IBM、Oracle、Cloudera和Alteryx等,都已經(jīng)進(jìn)入這一領(lǐng)域,三大公有云廠商亦是如此。
2018年,DataRobot、Tamr和Immuta紛紛得到風(fēng)投資金,說(shuō)明這幾家初創(chuàng)公司在過(guò)去幾年中已經(jīng)扎根于數(shù)據(jù)科學(xué)工作臺(tái)領(lǐng)域,并且也將觸手伸到了中國(guó)和遠(yuǎn)東。
2019年,將會(huì)越來(lái)越多的企業(yè)強(qiáng)調(diào)他們能夠自動(dòng)執(zhí)行諸如特征工程、超參數(shù)優(yōu)化和數(shù)據(jù)標(biāo)記等傳統(tǒng)手動(dòng)任務(wù)。大數(shù)據(jù)分析解決方案提供商將大力投資工具以加快將經(jīng)過(guò)訓(xùn)練的AI模型部署到生產(chǎn)應(yīng)用中的進(jìn)程。隨著大數(shù)據(jù)分析生態(tài)系統(tǒng)開(kāi)始向云原生架構(gòu)轉(zhuǎn)變,越來(lái)越多的數(shù)據(jù)科學(xué)工作臺(tái)將整合Kubernetes業(yè)務(wù)流程結(jié)構(gòu)自動(dòng)化任務(wù)的能力,并將容器模型集成到公有云和私有云中,這一趨勢(shì)將把新興標(biāo)準(zhǔn)(如Kubeflow)帶入蓬勃發(fā)展的數(shù)據(jù)科學(xué)DevOps工具鏈生態(tài)系統(tǒng)中來(lái)。
Hadoop和Spark正在變成傳統(tǒng)遺留技術(shù)
Hadoop在大數(shù)據(jù)分析領(lǐng)域發(fā)揮的作用正在逐漸消失。Hadoop市場(chǎng)的增長(zhǎng)前景趨于平緩,這也成為Cloudera和Hortonworks在2018年合并的主要原因。
Hadoop的核心用例正在逐漸縮小到面向非結(jié)構(gòu)化數(shù)據(jù)的分布式文件系統(tǒng)、用于批量數(shù)據(jù)轉(zhuǎn)換的平臺(tái)、大數(shù)據(jù)治理存儲(chǔ)庫(kù)和可查詢的大數(shù)據(jù)存檔。
2019年,Hadoop將試圖把應(yīng)用范圍擴(kuò)展到在線分析處理、商業(yè)智能、數(shù)據(jù)倉(cāng)庫(kù)以及其他開(kāi)源項(xiàng)目覆蓋的領(lǐng)域。今年年底,很多企業(yè)大數(shù)據(jù)環(huán)境將開(kāi)始逐步淘汰Hadoop,即使Hadoop重點(diǎn)瞄準(zhǔn)的數(shù)據(jù)湖,也更傾向于采用分布式對(duì)象存儲(chǔ)、流計(jì)算平臺(tái)和大規(guī)??蓴U(kuò)展的內(nèi)存集群。
即使作為Hadoop替代品問(wèn)世的Apache Spark,在許多以TensorFlow為中心的AI環(huán)境中也開(kāi)始變成一項(xiàng)遺留技術(shù)。這一趨勢(shì)通過(guò)數(shù)據(jù)提取/轉(zhuǎn)換/加載進(jìn)入到Spark的部署領(lǐng)域就可以看到,而且隨著Schema on Read架構(gòu)(將數(shù)據(jù)的處理推遲到從數(shù)據(jù)庫(kù)讀出后)的出現(xiàn),這種趨勢(shì)可能會(huì)有所放緩。
大數(shù)據(jù)正在成為數(shù)據(jù)管理DevOps的核心
用戶能否快速搜索、發(fā)現(xiàn)、組織和管理數(shù)據(jù)資產(chǎn),已經(jīng)成為數(shù)字業(yè)務(wù)能否取得成功的基礎(chǔ)。在這方面,Looker Data Science在E輪融資中獲得了1億美元,以滿足大數(shù)據(jù)編目、治理、準(zhǔn)備和可視化解決方案的市場(chǎng)需求。
2019年,Wikibon預(yù)測(cè)會(huì)看到越來(lái)越多的企業(yè)將數(shù)據(jù)湖重新用于應(yīng)用基礎(chǔ)架構(gòu)的大數(shù)據(jù)目錄中,從而提高知識(shí)工作者的工作效率,支持正在構(gòu)建訓(xùn)練生產(chǎn)AI應(yīng)用的新一代開(kāi)發(fā)人員,并促進(jìn)算法透明度和電子發(fā)現(xiàn)。
Wikibon還預(yù)計(jì)IBM、Cloudera/Hortonworks、Informatica、Collibra等廠商將強(qiáng)化他們現(xiàn)有大數(shù)據(jù)目錄平臺(tái)在管理更多元數(shù)據(jù)、模型、圖像、容器和其他組件(這些組件都是AI DevOps工作流的生命線)的能力流程。企業(yè)將越來(lái)越多地跨多云環(huán)境部署大數(shù)據(jù)目錄,利用新一代虛擬化工具,提供單一控制平面來(lái)管理公有云和私有云中的不同數(shù)據(jù)資產(chǎn)。Wikibon預(yù)測(cè),AWS、微軟和谷歌將推出自己的大數(shù)據(jù)目錄,面向那些選擇在公有云/私有云混合環(huán)境中部署這些服務(wù)的客戶。
數(shù)據(jù)湖正在朝著云對(duì)象存儲(chǔ)和流計(jì)算發(fā)展
2018年,AWS S3和微軟Azure Data Lake Storage等云對(duì)象存儲(chǔ)平臺(tái)將繼續(xù)取代企業(yè)數(shù)據(jù)湖中的Hadoop。Wikibon還看到,風(fēng)險(xiǎn)投資方會(huì)優(yōu)先為那些知名的多云數(shù)據(jù)訪問(wèn)、查詢和可視化解決方案提供商提供資金(例如Dremio,在B輪融資中獲得2500萬(wàn)美元);以及軟件定義的多云存儲(chǔ)(例如Scality,在B輪融資中獲得6000萬(wàn)美元),和云對(duì)象存儲(chǔ)(例如Cloudian,在E輪融資中獲得9400萬(wàn)美元)。
展望未來(lái),這一趨勢(shì)將持續(xù)下去,但是未來(lái)三到五年流計(jì)算將讓這一趨勢(shì)黯然失色。Kafka、Flink和Spark Structured Streaming等低延遲流媒體平臺(tái)正在成為企業(yè)數(shù)據(jù)基礎(chǔ)設(shè)施的基礎(chǔ),正如20世紀(jì)70年代以來(lái)的關(guān)系數(shù)據(jù)架構(gòu)。
商業(yè)智能將全面擁抱AI和內(nèi)存
人工智能正在從內(nèi)部和外部全面重塑商業(yè)智能市場(chǎng)。在過(guò)去幾年中,商業(yè)智能的一個(gè)核心趨勢(shì)是新一代融入了AI的預(yù)測(cè)分析、搜索、預(yù)測(cè)工具覆蓋了該技術(shù)傳統(tǒng)的重點(diǎn)——歷史分析,這些工具可以讓企業(yè)用戶做很多以前需要經(jīng)過(guò)培訓(xùn)的數(shù)據(jù)科學(xué)家才能做的事情。
2019年,越來(lái)越多的商業(yè)智能廠商將深度集成AI,自動(dòng)從復(fù)雜數(shù)據(jù)中提取預(yù)測(cè)見(jiàn)解,同時(shí)在解決方案中提供豐富的功能,提供便捷的自助服務(wù)和最佳行動(dòng)的指導(dǎo),這一點(diǎn)從今年初創(chuàng)公司ThoughtSpot在D輪融資中獲得1.45億美元就可以看出,這筆資金將被用于ThoughtSpot創(chuàng)新的AI增強(qiáng)型業(yè)務(wù)分析解決方案組合。
說(shuō)到AI在大數(shù)據(jù)分析市場(chǎng)幾乎所有方面都發(fā)揮著越來(lái)越重要的作用,讓我們來(lái)看看2018年的這些融資事件吧:
?AI初創(chuàng)公司從風(fēng)投那里得到了驚人的資金——預(yù)計(jì)僅美國(guó)AI初創(chuàng)公司就得到了1000億美元資金,其中大部分資金都投給了創(chuàng)新的AI硬件加速提供商。
去年規(guī)模最大的種子輪融資中很多都是發(fā)展有一段時(shí)間的人工智能解決方案提供商,包括AI自動(dòng)化工作臺(tái)初創(chuàng)公司DataRobot,在D輪融資中獲得1億美元;自動(dòng)數(shù)據(jù)準(zhǔn)備公司Tamr,在D輪融資中獲得1800萬(wàn)美元;AI DevOps數(shù)據(jù)隱私控制公司Immuta,在B輪融資中獲得2000萬(wàn)美元。
· 企業(yè)對(duì)于利用強(qiáng)大的人工智能搜索技術(shù)篩選越來(lái)越多的日志數(shù)據(jù)有著永遠(yuǎn)無(wú)法滿足的需求,這也解釋了為什么Elasticsearch B.V.能夠在IPO上市的時(shí)候籌集2.52億美元資金。
· AI和業(yè)務(wù)分析行業(yè)正在持續(xù)向自助數(shù)據(jù)準(zhǔn)備轉(zhuǎn)變,這一點(diǎn)解釋了Infogix為什么要收購(gòu)LavaStorm Analytics。
· 構(gòu)建自主AI驅(qū)動(dòng)系統(tǒng)的強(qiáng)化學(xué)習(xí)工具新興市場(chǎng),是激勵(lì)微軟收購(gòu)Bonsai AI的一個(gè)重要因素。
· 越來(lái)越多的企業(yè)選擇部署分布式內(nèi)存云數(shù)據(jù)庫(kù)以支持復(fù)雜的實(shí)時(shí)AI管道,這一點(diǎn)促使MariaDB Corp. Ab收購(gòu)了Clustrix。
大數(shù)據(jù)分析的另一個(gè)主導(dǎo)趨勢(shì)是內(nèi)存架構(gòu),這就解釋了為什么2018年MemSQL以內(nèi)存交易分析技術(shù)在D輪融資中獲得了3000萬(wàn)美元,InfluxData以使用時(shí)間序列數(shù)據(jù)庫(kù)實(shí)時(shí)監(jiān)控性能技術(shù)在C輪融資中獲得了3500萬(wàn)美元,以及Actian憑借知名的內(nèi)存混合交易/分析平臺(tái)被股權(quán)公司HCL收購(gòu)。
邊緣計(jì)算從根本上改造了數(shù)據(jù)庫(kù)架構(gòu)
我們所了解的數(shù)據(jù)庫(kù)正在被解構(gòu)并重新組裝,用于面向邊緣的部署。
大數(shù)據(jù)分析市場(chǎng)的大部分發(fā)展都是面向邊緣的、流式、動(dòng)態(tài)的數(shù)據(jù)架構(gòu),這些架構(gòu)不一定依賴于龐大的存儲(chǔ)架構(gòu)。這就解釋了為什么我們?cè)?018年看到可擴(kuò)展的機(jī)器數(shù)據(jù)存儲(chǔ)、處理和分析(CrateDB,A輪融資獲得1100萬(wàn)美元)和流數(shù)據(jù)管道集成、監(jiān)控和管理(StreamSets,C輪融資獲得2400萬(wàn)美元)公司都獲得了融資。
Wikibon預(yù)測(cè),2019年企業(yè)將部署流媒體平臺(tái),推動(dòng)低延遲DevOps管道,不斷向移動(dòng)應(yīng)用、物聯(lián)網(wǎng)、機(jī)器人和其他邊緣應(yīng)用注入經(jīng)過(guò)訓(xùn)練的最佳機(jī)器學(xué)習(xí)模型。在線事務(wù)分析處理、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)治理工作負(fù)載也越來(lái)越多地轉(zhuǎn)向低延遲、有狀態(tài)的流式主干架構(gòu)。
未來(lái)幾年,顛覆性的新數(shù)據(jù)平臺(tái)將進(jìn)入市場(chǎng),結(jié)合流媒體、內(nèi)存和區(qū)塊鏈功能。這些新的分布式數(shù)據(jù)平臺(tái)中有很多將是針對(duì)連續(xù)的AI DevOps管道進(jìn)行優(yōu)化的,這些管道需要低延遲、可擴(kuò)展和自動(dòng)化的數(shù)據(jù)接收、建模、訓(xùn)練、以及服務(wù)于邊緣設(shè)備。這些分析管道功能的無(wú)服務(wù)器接口將成為標(biāo)準(zhǔn)配置,并輔以有狀態(tài)流結(jié)構(gòu),支持新興5G寬帶無(wú)線網(wǎng)絡(luò)中邊緣設(shè)備中的內(nèi)聯(lián)推薦引擎、下一個(gè)最佳動(dòng)作和其他事務(wù)工作負(fù)載。