三大 Hadoop 廠商衰落
在圍繞Hadoop進(jìn)行商業(yè)化的廠商中,Cloudera、Hortonworks 和 MapR 曾是最為外界所關(guān)注的對(duì)象,直到 Cloudera 和 Hortonworks宣布進(jìn)行全股合并時(shí),業(yè)界大部分聲音是看好的。Syncsort首席技術(shù)官指出,雖然 Hortonworks 的產(chǎn)品專注于物聯(lián)網(wǎng)和流數(shù)據(jù)場(chǎng)景,Cloudera 專注于數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和人工智能。但在她看來(lái),這可以使合并取得成功,因?yàn)楹喜⒑蟮墓緦⒈榷咧械娜魏我粋€(gè)都發(fā)展得更快,走得更遠(yuǎn)。
合并后不久,Cloudera 宣布的收入比分析師預(yù)測(cè)少了 6900 萬(wàn)到 8900 萬(wàn)美元。與此同時(shí),公司首席執(zhí)行官 Tom Reilly、聯(lián)合創(chuàng)始人兼 CSO Mike Olson 雙雙宣布辭職。該公司股價(jià)隨即暴跌 40%。
至于 MapR,其商業(yè)化的主要途徑是提供優(yōu)于開源 Hadoop 的特性,比如其創(chuàng)始人 M.C.Srivas 在公司創(chuàng)建伊始就將 Hadoop 文件系統(tǒng) HDFS 進(jìn)行了重構(gòu),兼容 Hadoop 協(xié)議的同時(shí)保持閉源,一度給外界造成技術(shù)實(shí)力優(yōu)于整個(gè) Hadoop 社區(qū)的感覺(jué),可惜的是用戶對(duì)此并不買賬,導(dǎo)致其融資困難,甚至開始裁員并計(jì)劃關(guān)閉硅谷總部。
對(duì)此,一位不愿意透露姓名的云計(jì)算領(lǐng)域?qū)<以诮邮?InfoQ 采訪時(shí)表示,開源顛覆了傳統(tǒng)軟件,云計(jì)算又顛覆了開源廠商。大數(shù)據(jù)的市場(chǎng)空間本身存在,但是隨著云計(jì)算廠商的接入,確實(shí)削弱了傳統(tǒng)大數(shù)據(jù)廠商的盈利能力。云廠商對(duì)傳統(tǒng)大數(shù)據(jù)廠商沖擊太大,因?yàn)榭傮w成本更低,可獲得性更容易,而這三家大數(shù)據(jù)廠商并沒(méi)有提供相比云計(jì)算廠商大數(shù)據(jù)能力的差異化點(diǎn)。
當(dāng)然,這三家圍繞 Hadoop 進(jìn)行商業(yè)化的廠商的衰落并不代表整個(gè) Hadoop 生態(tài)的隕落,只能說(shuō)明這樣的商業(yè)化路徑存在問(wèn)題(不要將廠商和生態(tài)混為一談)。 專家指出,過(guò)去,開源對(duì)傳統(tǒng)軟件是一種顛覆式的影響,在開源尤為活躍的大數(shù)據(jù)技術(shù)領(lǐng)域采用傳統(tǒng)軟件的商業(yè)化模式是一種逆勢(shì)而為,云計(jì)算的興起正在對(duì)開源產(chǎn)生巨大影響,正如Clint Sharp 所指出的,“Hadoop 的主要應(yīng)用場(chǎng)景一直是廉價(jià)的存儲(chǔ)。然而,有了云之后,存儲(chǔ)變得更廉價(jià),更何況 S3+EMR 和其他服務(wù)的用戶體驗(yàn)還提高了千倍不止。”
云廠商的顛覆姿態(tài)
在企業(yè)逐步云化的過(guò)程中,云廠商的顛覆者姿態(tài)讓其受到了諸多指責(zé),比如開源殺手等,但這并沒(méi)有阻礙企業(yè)云化的進(jìn)程,大數(shù)據(jù)服務(wù)公司也在往云平臺(tái)的方向演進(jìn),比如 Cloudera 與 Hortonworks 合并被認(rèn)為是在一定程度上提升云服務(wù)的競(jìng)爭(zhēng)力。但是,本地大數(shù)據(jù)廠商難以獨(dú)立提供云大數(shù)據(jù)服務(wù)所依賴的全部基礎(chǔ)設(shè)施資源,一般會(huì)集成到各大公有云平臺(tái),比如 MongoDB 提供的 Atlas 就與眾多公有云廠商合作。因此,在各大公有云平臺(tái)上,可以看到越來(lái)越多本地大數(shù)據(jù)服務(wù)商提供的服務(wù)。
那么,云廠商的出現(xiàn)為什么會(huì)對(duì)這一領(lǐng)域造成如此影響呢?專家認(rèn)為,首先要從大數(shù)據(jù)的本源談起,大數(shù)據(jù)的本源是需要處理的數(shù)據(jù)集遠(yuǎn)遠(yuǎn)大于單臺(tái)物理機(jī)能夠存儲(chǔ)和處理的數(shù)據(jù)量。在這種情況下,出現(xiàn)了兩個(gè)技術(shù):一是跨服務(wù)器存儲(chǔ)的分布式文件系統(tǒng)HDFS(當(dāng)然,最早來(lái)自于谷歌論文);二是多機(jī)器處理的計(jì)算框架。這種體系在大數(shù)據(jù)發(fā)展的早、中期起到了非常大的作用,就是把大批量中低等級(jí)的硬件系統(tǒng)集成起來(lái)以處理海量數(shù)據(jù)。
在實(shí)踐過(guò)程中,這種架構(gòu)逐漸出現(xiàn)內(nèi)在的不均衡。簡(jiǎn)單來(lái)說(shuō),物理機(jī)的計(jì)算和存儲(chǔ)比例是固定的,但是從應(yīng)用視角來(lái)看,計(jì)算和存儲(chǔ)的比例關(guān)系往往是動(dòng)態(tài)的,有些公司計(jì)算過(guò)剩,有些公司存儲(chǔ)過(guò)剩,這導(dǎo)致硬件選型成為一個(gè)很大的挑戰(zhàn)。同時(shí),對(duì)于長(zhǎng)久存在的大數(shù)據(jù)系統(tǒng)來(lái)說(shuō),新老硬件組成的非均質(zhì)系統(tǒng)也存在負(fù)載均衡等管理上的挑戰(zhàn)。
隨著云架構(gòu)的發(fā)展,無(wú)論是公有云,還是私有云,特別是公有云,可以實(shí)現(xiàn)存儲(chǔ)與計(jì)算分離。IaaS 層將計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)作為資源動(dòng)態(tài)提供給用戶消費(fèi),這成為一個(gè)最佳實(shí)踐,完美消除了計(jì)算和存儲(chǔ)的動(dòng)態(tài)均衡問(wèn)題。從最優(yōu)化的角度來(lái)看,相對(duì)于傳統(tǒng)的計(jì)算、存儲(chǔ)一體化的大數(shù)據(jù)系統(tǒng),云平臺(tái)大數(shù)據(jù)服務(wù)無(wú)疑存在一些開銷,但是這種形態(tài)讓大數(shù)據(jù)集群建設(shè)初期要考慮的計(jì)算和存儲(chǔ)匹配,網(wǎng)絡(luò)設(shè)計(jì)等問(wèn)題都“推遲決策”了,換言之就是不用那么早考慮,在具體業(yè)務(wù)使用時(shí)隨用隨取,這為業(yè)務(wù)帶來(lái)了極大的靈活性。
從這個(gè)角度看,基于云架構(gòu)的大數(shù)據(jù)系統(tǒng),本質(zhì)上提供了靈活性,而對(duì)數(shù)據(jù)業(yè)務(wù)本身而言,靈活性、動(dòng)態(tài)性恰好是根本,那么基于云架構(gòu)的大數(shù)據(jù)服務(wù)剛好契合了這些特征。大數(shù)據(jù)云服務(wù)的本質(zhì)優(yōu)勢(shì)是享受更低成本、更快的技術(shù)更新。在過(guò)往與企業(yè)大數(shù)據(jù)團(tuán)隊(duì)打交道的過(guò)程中,專家發(fā)現(xiàn)其自建的大數(shù)據(jù)平臺(tái)還在使用兩年以前的開源大數(shù)據(jù)組件,因?yàn)槿藛T的不穩(wěn)定造成其不敢輕易進(jìn)行技術(shù)升級(jí),或者說(shuō)沒(méi)有能力升級(jí),維護(hù)的包袱就會(huì)越來(lái)越重。
綜上,業(yè)內(nèi)專家向 InfoQ 表示,相比于本地大數(shù)據(jù)服務(wù),云大數(shù)據(jù)服務(wù)靈活的本質(zhì)是計(jì)算和存儲(chǔ)分離,本質(zhì)優(yōu)勢(shì)是極大得降低了成本,包括環(huán)境成本,節(jié)省搭建機(jī)房,風(fēng)火水電,網(wǎng)絡(luò),操作系統(tǒng)等的時(shí)間;研發(fā)成本,節(jié)省服務(wù)搭建,研究周邊依賴,可靠性部署,安全對(duì)接等的時(shí)間;人力成本,大數(shù)據(jù)運(yùn)維需要非常專業(yè)的人才能勝任,企業(yè)應(yīng)該聚焦在業(yè)務(wù)上而不是大數(shù)據(jù)平臺(tái)的運(yùn)維上;運(yùn)行成本,大數(shù)據(jù)云服務(wù)廠家和基礎(chǔ)設(shè)施的配合可以做到最優(yōu),盡可能減少資源消耗。
選用原則
在過(guò)往與企業(yè)用戶打交道的過(guò)程中,完全依靠本地大數(shù)據(jù)服務(wù),選擇部分云供應(yīng)商的大數(shù)據(jù)服務(wù),在公有云的基礎(chǔ)設(shè)施之上自建大數(shù)據(jù)服務(wù)的用戶皆而有之。
就此現(xiàn)狀,InfoQ 采訪了華為云布道師趙軍。他表示,大數(shù)據(jù)框架中的服務(wù)本身對(duì)基礎(chǔ)設(shè)施并沒(méi)有強(qiáng)綁定要求,而當(dāng)前云端的性能、可靠性、可運(yùn)維性已經(jīng)足夠高。就服務(wù)本身而言,所有大數(shù)據(jù)服務(wù)都適合在云端運(yùn)行,企業(yè)應(yīng)該根據(jù)業(yè)務(wù)類型進(jìn)行區(qū)分。如果業(yè)務(wù)可以上云,則所有都可使用云端大數(shù)據(jù)服務(wù)。
在具體選用上,可以結(jié)合成本構(gòu)成分析大數(shù)據(jù)平臺(tái)的使用,包括如下幾方面:
風(fēng)、火、水、電數(shù)據(jù)中心的成本
IaaS 成本
大數(shù)據(jù)軟件棧的成本
運(yùn)維大數(shù)據(jù)軟件棧的成本
使用大數(shù)據(jù)軟件棧的團(tuán)隊(duì)的成本
其中,大數(shù)據(jù)軟件棧和運(yùn)維其的成本有些關(guān)系,有些用戶完全通過(guò)開源軟件實(shí)現(xiàn),但是實(shí)際上付出了極大的人力成本。無(wú)論如何,不管是自建還是基于公有云,以上成本都是顯性存在的,公有云可以省去一些大數(shù)據(jù)軟件棧搭建及運(yùn)維的成本,前兩項(xiàng)成本則是購(gòu)買公有云服務(wù)和自建的區(qū)別。此外,自建服務(wù)的彈性較小,云平臺(tái)可以隨時(shí)提供彈性能力。
至于云平臺(tái)大數(shù)據(jù)服務(wù)的價(jià)格高昂與否,其實(shí)完全取決于公有云服務(wù)的定價(jià)。對(duì)于那些在 IaaS 層面采用自己設(shè)計(jì)、生產(chǎn)的 CPU、網(wǎng)絡(luò)、存儲(chǔ)等基礎(chǔ)設(shè)施的公有云廠商來(lái)說(shuō),往往對(duì)于超大客戶有比較大的讓利能力。
對(duì)于不同類型的企業(yè),選擇大數(shù)據(jù)平臺(tái)服務(wù)時(shí)關(guān)注的點(diǎn)會(huì)差異很大。舉例來(lái)說(shuō),更關(guān)注成本且需要削峰的,建議優(yōu)先選擇 Serverless 服務(wù);更關(guān)注資源隔離和獨(dú)享的,建議選擇包周期的資源類型服務(wù);對(duì)于已有大數(shù)據(jù)平臺(tái)經(jīng)驗(yàn)的企業(yè),則優(yōu)選通用開源大數(shù)據(jù)開發(fā)平臺(tái)類服務(wù);對(duì)接口要求簡(jiǎn)單通用的,則優(yōu)選 Serverless 服務(wù)。
大數(shù)據(jù)社區(qū)的多樣性,導(dǎo)致了選擇的多樣性。具體原因可能很難一概而論,有的公司想總有一天要建立自己的私有云設(shè)施,所以僅希望公有云提供 IaaS;有的公司是因?yàn)橐呀?jīng)在私有云方面具備很長(zhǎng)的歷史,團(tuán)隊(duì)、經(jīng)驗(yàn)等都是現(xiàn)成的,因此在公有云的 IaaS 上自行搭建大數(shù)據(jù)服務(wù)。但是,對(duì)于絕大部分企業(yè)來(lái)講,使用公有云的大數(shù)據(jù)服務(wù)會(huì)更省心,成本更低。
趙軍表示,華為云目前提供通用的開源大數(shù)據(jù)開發(fā)平臺(tái),例如MRS(大數(shù)據(jù)平臺(tái))、DWS(數(shù)據(jù)倉(cāng)庫(kù))、CSS(搜索引擎)等,幫助原本使用開源大數(shù)據(jù)平臺(tái)的用戶無(wú)縫遷移到華為云大數(shù)據(jù)平臺(tái);Serverless 的大數(shù)據(jù)服務(wù),例如DIS(數(shù)據(jù)接入)、CDM(數(shù)據(jù)遷移)、CS(實(shí)時(shí)流處理)、CloudTable(表格存儲(chǔ))、DLI(數(shù)據(jù)湖探索) 等,幫助客戶按需使用大數(shù)據(jù)平臺(tái)資源,支持?jǐn)?shù)據(jù)采集、接入、存儲(chǔ)、分析等,最低成本幫助客戶解決削峰場(chǎng)景,并且與 AI 很好結(jié)合,可以讓用戶更容易使用 AI 技術(shù);數(shù)據(jù)管理平臺(tái),例如DAYU(數(shù)據(jù)治理),幫助客戶解決數(shù)據(jù)治理相關(guān)的問(wèn)題;全棧大數(shù)據(jù)服務(wù),包括多種專業(yè)化單一引擎的大數(shù)據(jù)服務(wù);總之,主要意圖是希望降低企業(yè)獲取大數(shù)據(jù)服務(wù)的門檻,做到按需使用。在接口和應(yīng)用開發(fā)體驗(yàn)方面完全與社區(qū)一致,同時(shí)提供按需、彈性、運(yùn)維等支持,包括論壇等。
總體來(lái)看,企業(yè)如何選擇取決于公有云運(yùn)營(yíng)者能否提供充分的遷移支持,讓大數(shù)據(jù)服務(wù)的消費(fèi)者省心、放心。省心指的是大數(shù)據(jù)服務(wù)與 Hadoop 社區(qū)的兼容性,這個(gè)兼容性能夠讓遷移的成本最小甚至無(wú)感知。放心指的是大數(shù)據(jù)服務(wù)有強(qiáng)大的團(tuán)隊(duì)支持,而不是簡(jiǎn)單的把 Hadoop 社區(qū)的東西拖來(lái)安裝一下售賣。國(guó)內(nèi)的公有云廠商在這方面的差別還是比較大的,有的走自研道路,可能存在社區(qū)兼容性跟進(jìn)慢等情況;有的基本沒(méi)有私有云大數(shù)據(jù)服務(wù),導(dǎo)致自己的大數(shù)據(jù)服務(wù)沒(méi)有充分錘煉。
短期來(lái)看,趙軍表示,企業(yè)大數(shù)據(jù)服務(wù)的公有云、混合云和多云模式將共同存在。長(zhǎng)期來(lái)看,公有云和私有云架構(gòu)將逐漸趨同,甚至提供一致的體驗(yàn),隨著可信規(guī)則的建立,公有云可能會(huì)慢慢取代私有云,并且是多公有云模式,避免單一廠商鎖定。未來(lái),華為云大數(shù)據(jù)服務(wù)的發(fā)展方向是:數(shù)據(jù)安全可信,在華為云已經(jīng)獲得國(guó)際上主流的 ISO 27001 & 27017 & 27018 & CSA STAR 四個(gè)安全復(fù)審和認(rèn)證的基礎(chǔ)上,會(huì)在技術(shù)上繼續(xù)發(fā)力,讓用戶進(jìn)一步認(rèn)可在公有云上的數(shù)據(jù)安全;支持 ARM,依托自產(chǎn)硬件,提供極致的成本競(jìng)爭(zhēng)力;大數(shù)據(jù)技術(shù)更易用,降低使用門檻;與 AI 進(jìn)行深度結(jié)合,讓數(shù)據(jù)發(fā)揮更大的價(jià)值,讓 AI 觸手可得;大數(shù)據(jù)計(jì)算自動(dòng)優(yōu)化,實(shí)現(xiàn)大數(shù)據(jù)計(jì)算的“自動(dòng)駕駛”。