云棲大會上放出的觀點(diǎn)成為這幾日行業(yè)人士乃至社交網(wǎng)絡(luò)上的熱議話題,包括馬云的主題演講。馬云在這場主題演講中,只字未提“阿里云”,但這并不說明阿里云不重要,而是在某種意義上來講,阿里云“從0到1”的階段已經(jīng)完成了。
在10月13日杭州云棲大會開幕當(dāng)天,馬云發(fā)表了就上一財(cái)年致股東信,信中提及,“阿里云承載了中國35%的網(wǎng)站并為之提供云計(jì)算和大數(shù)據(jù)的服務(wù),而截至2016年3月31日的阿里財(cái)報顯示阿里云擁有超過230萬用戶,其中云計(jì)算付費(fèi)用戶達(dá)50萬。”
從2009年2月寫下阿里云的第一段代碼開始,阿里云上上下下的負(fù)責(zé)人們就一直在試圖解釋阿里云到底是什么。成立七年的阿里云的業(yè)務(wù)邏輯是什么?現(xiàn)任阿里云首席架構(gòu)師唐洪、阿里云資深技術(shù)總監(jiān)李津通過密密麻麻的圖表清晰地做出了解析。
三句話道破阿里云的天機(jī)
阿里云的核心人物王堅(jiān)最近出版了一本書《在線》。王堅(jiān)自2008年9月加入阿里任阿里巴巴集團(tuán)任首席架構(gòu)師,2009年9月創(chuàng)建阿里云計(jì)算公司并任總裁,現(xiàn)任阿里巴巴集團(tuán)技術(shù)委員會主席。
王堅(jiān)和其團(tuán)隊(duì)自主研發(fā)的大規(guī)模分布式計(jì)算系統(tǒng)“飛天”,是阿里云的核心,建立了互聯(lián)網(wǎng)規(guī)模的通用計(jì)算平臺,完成了云計(jì)算公共服務(wù)的商業(yè)化。
阿里巴巴集團(tuán)技術(shù)委員會主席王堅(jiān)
《在線》一書中,王堅(jiān)對過去8年自主技術(shù)創(chuàng)新道路進(jìn)行了反思與總結(jié)。摘出書中三句話,就能從根本上說清楚阿里云的本質(zhì)以及過去與未來:
1、從某種意義上來說,“飛天”就是一個操作系統(tǒng),操作系統(tǒng)最重要的功能就是資源管理。
“飛天”的底層是數(shù)據(jù)中心,有成千上萬臺通用服務(wù)器,每臺服務(wù)器都有CPU(中央處理器)、內(nèi)存、存儲,相互之間用以太網(wǎng)進(jìn)行連接,這套系統(tǒng)簡單說就是把所有資源抽象成一臺計(jì)算機(jī),并通過互聯(lián)網(wǎng)提供計(jì)算服務(wù)。
2、這樣的底層架構(gòu)與亞馬遜差別很大。
亞馬遜對外提供的每一個服務(wù)都會直接對應(yīng)一個或多個物理集群,比如A集群對于S3(亞馬遜云存儲服務(wù)),B集群對于EC2(亞馬遜云彈性計(jì)算服務(wù)),它的功能和系統(tǒng)計(jì)算是垂直的。而阿里云所有的服務(wù)對應(yīng)的都是同一個系統(tǒng)內(nèi)核、同一套分布式文件系統(tǒng)。也就是說,無論對象存儲、彈性計(jì)算、郵件、搜索等,都共用同一個底層。除阿里云外,世界上只有谷歌能夠做到這一點(diǎn)。
3、“飛天”系統(tǒng)是一個規(guī)模很大的有機(jī)整體。
規(guī)模很大帶來的最大挑戰(zhàn)在于這臺“超級計(jì)算機(jī)”每天都可能發(fā)生故障——硬盤會壞、風(fēng)扇會壞、內(nèi)存會壞,“可能自己買一臺筆記本電腦用了5年之后依舊完好無損,但是在成千上萬臺服務(wù)器的‘飛天’集群里面,硬件故障時時刻刻都會發(fā)生。”
再進(jìn)一步精煉總結(jié)的話,如果把全世界的計(jì)算資源看成是一臺龐大的虛擬計(jì)算機(jī)的話,阿里云的核心“飛天”就是這臺虛擬計(jì)算機(jī)的操作系統(tǒng),而“內(nèi)存”、“硬盤”、“顯卡”等都是由巨大的通用服務(wù)器集群組成。阿里云除了核心“飛天”操作系統(tǒng)外,還向上提供云服務(wù)版本的中間件、安全、文件系統(tǒng)、數(shù)據(jù)庫以及面向應(yīng)用的通用API等高級服務(wù)。用戶使用阿里云的方法卻很簡單,只需要通用瀏覽器或通用API簡單調(diào)用即可。
除了谷歌外,微軟云也是同樣的思路。
阿里云就是這樣一個永遠(yuǎn)“在線”的軟硬一體的虛擬計(jì)算機(jī),這個虛擬計(jì)算機(jī)龐大到了每個人都生活在其中卻感覺不到它的存在——當(dāng)然,這不僅僅是阿里云的終極夢想,亞馬遜云、谷歌云、微軟云三大巨頭都在朝同一個方向?qū)嵺`。
描述下阿里云的規(guī)模:百萬級服務(wù)器、單集群1萬臺的“有機(jī)體”
既然阿里云“飛天”系統(tǒng)是一個規(guī)模很大的有機(jī)整體,這個有機(jī)體目前到底有多大?綜合今年杭州的“云棲大會”上阿里云提供的各種資料,可以初步描繪出這個有機(jī)體的規(guī)模:
百萬臺級服務(wù)器的連接能力,單集群可達(dá)1萬臺的規(guī)模,10萬個進(jìn)程達(dá)毫秒級響應(yīng);十億級文件數(shù),EB級別存儲空間;全球15個數(shù)據(jù)中心區(qū)域;“飛天”全球用戶數(shù)達(dá)到230萬,遍布全球200多個國家和地區(qū);提供面向22個行業(yè)的108個解決方案。
簡單的對比,亞馬遜云與微軟云目前都是百萬臺服務(wù)器級別的規(guī)模,亞馬遜云在全球有17個數(shù)據(jù)中心區(qū)域、35個可用區(qū)域(AZ),微軟云有34個數(shù)據(jù)中心區(qū)域,而谷歌雖然自身達(dá)千萬臺服務(wù)器級別但只有一小部分對外提供公有云服務(wù)。
按阿里云資深技術(shù)總監(jiān)李津在本屆杭州云棲大會上的說法,從規(guī)模來看,阿里云與亞馬遜云已經(jīng)沒有多大的差距。
飛天系統(tǒng)與PC系統(tǒng)的邏輯對比
因此,在過去的7年時間里,阿里云一直在發(fā)布這個龐大體系的不同組件,并且在把不同的組件連接起來形成一個有機(jī)體。
眾所周知,傳統(tǒng)操作系統(tǒng)在升級硬件的時候需要重啟系統(tǒng),而阿里云在升級飛天的時候卻不能“重啟”——這個很好理解,阿里云已經(jīng)與社會經(jīng)濟(jì)息息相連,必須7*24小時不間斷在線。
另外一個問題是:這樣的一個有“生命”的有機(jī)是怎么自我調(diào)節(jié)、自我平衡、部分組織自我重生的呢?
根據(jù)唐洪的介紹,阿里云的生命機(jī)理就是阿里云的自動化運(yùn)維系統(tǒng)“天基”。在“天基”看來,系統(tǒng)里每一臺機(jī)器都無時無刻地處在部署、升級、遷移以及各個狀態(tài)的轉(zhuǎn)換中,“天基”在整個系統(tǒng)運(yùn)行中精準(zhǔn)地控制每個進(jìn)程、每個組件的狀態(tài),從而控制每個系統(tǒng)的狀態(tài)。
“天基”采用了一個面向恢復(fù)的計(jì)算模型。每臺由“天基”管理的機(jī)器上會定期向“天基”發(fā)送自己的狀態(tài),而“天基”還維護(hù)一個系統(tǒng)預(yù)期的狀態(tài),“天基”會定期地比較預(yù)期狀態(tài)和當(dāng)前狀態(tài),根據(jù)其差別來制定出詳細(xì)的執(zhí)行計(jì)劃并下發(fā)到“天基”的執(zhí)行AGENT機(jī)器上,通過這樣的過程迭代使得整個系統(tǒng)的狀態(tài)逐步逼近到預(yù)期狀態(tài)。
而在離線應(yīng)用與在線應(yīng)用的系統(tǒng)資源混合管理方面,阿里云會將離線應(yīng)用和在線應(yīng)用放在同一個集群上,當(dāng)在線應(yīng)用比較空閑時就將資源分配調(diào)度離線應(yīng)用,當(dāng)在線應(yīng)用的負(fù)載比較高時就將資源從離線應(yīng)用“搶占”過來。這樣既可以保證整個系統(tǒng)資源的利用率,也可以確保在線服務(wù)的質(zhì)量。通過這兩個策略,可以將集群中日常資源的使用率從5%提升至54%、將集群峰值的利用率從22%提升至64%。
云的“生命機(jī)制”可以概括為從無到有、從小到大。為了保證用戶業(yè)務(wù)的不間斷以及阿里云的組織更新,阿里云曾經(jīng)創(chuàng)造了全球首例整體機(jī)房帶業(yè)務(wù)熱搬遷,也就是說,“整個機(jī)房帶著用戶不停頓的業(yè)務(wù)搬遷到新址,形象的說法就是開著汽車換輪子、開著飛機(jī)換引擎。”
然而,一旦阿里云的所有必要組件全部都對外發(fā)布出來而且已經(jīng)彼此互連成合體的話,這個有機(jī)整體就可以脫離人工的管理,而由機(jī)器自治。李津介紹說,目前他的團(tuán)隊(duì)已經(jīng)在把深度學(xué)習(xí)等人工智能算法用于阿里云基礎(chǔ)設(shè)施的自我管理,由機(jī)器自己探測并自動修復(fù)故障。
與社會化應(yīng)用協(xié)同進(jìn)化的邏輯
回顧阿里云7年的發(fā)展,還有一個重要的邏輯:不斷用真實(shí)世界的應(yīng)用來刺激阿里云的生長。
阿里云的早期階段,由于大量用戶把自己的應(yīng)用架設(shè)到阿里云上,但早期的阿里云因?yàn)榻?jīng)常宕機(jī)而導(dǎo)致一片罵聲,可以說阿里云就是被“炮轟”長大的,甚至有一個博客網(wǎng)站專門記錄阿里云的各種問題。
在《在線》這本書中,其實(shí)收錄了不少“炮轟”阿里云的報道,包括阿里集團(tuán)內(nèi)部也一度因?yàn)槭欠褚押诵膽?yīng)用搬到阿里云上而爆發(fā)激烈爭吵。
到今天,盡管阿里云依然會出現(xiàn)問題,但出現(xiàn)問題的幾率已經(jīng)大幅降低??梢哉f明這一點(diǎn)的就是阿里巴巴正在把自己內(nèi)部的核心應(yīng)用、甚至每年的「雙11」這樣的高難度挑戰(zhàn),都逐漸遷移到了阿里云上。
當(dāng)一個企業(yè)的云服務(wù)達(dá)到一定規(guī)模,產(chǎn)生了巨大的規(guī)模經(jīng)濟(jì)效益后,對于其使用者來說,最直接的好處就是獲得了不小的降價空間。阿里巴巴集團(tuán)2016財(cái)報顯示,過去一年里阿里云曾17次下調(diào)云服務(wù)的價格。
2016杭州云棲大會介紹了杭州城市大腦項(xiàng)目
國內(nèi)開源界,阿里巴巴也是最大貢獻(xiàn)者之一。在開源方面,本次杭州云棲大會上 AliSQL 正式開放了源代碼的下載。AliSQL是阿里巴巴基于開源數(shù)據(jù)庫MySQL官方版本的一個分支,應(yīng)用于阿里巴巴集團(tuán)業(yè)務(wù)以及阿里云數(shù)據(jù)庫服務(wù),目前由阿里云數(shù)據(jù)庫團(tuán)隊(duì)維護(hù)。阿里云在AliSQL上進(jìn)行了300多個改進(jìn),包括針對電商秒殺、物聯(lián)網(wǎng)大數(shù)據(jù)壓縮、金融數(shù)據(jù)安全等場景提供個性化解決方案。
隨著阿里云在技術(shù)上的成熟,現(xiàn)有的阿里內(nèi)部應(yīng)用以及社會上的應(yīng)用已經(jīng)不能滿足進(jìn)一步“刺激”阿里云的未來成長的作用,如何通過社會化力量來反哺云服務(wù)呢?
阿里巴巴在杭州立項(xiàng)的“城市大腦”是其中一個嘗試。“城市大腦”,主要是把人工智能用于城市治理,成為整個城市的人工智能中樞,讓城市能夠自我調(diào)節(jié)、與人類更好的互動,交通道路優(yōu)化與管理是第一個挑戰(zhàn)的課題。
“城市大腦”由五大系統(tǒng)組成——超大規(guī)模計(jì)算平臺、數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)交換中心、開放算法平臺、數(shù)據(jù)應(yīng)用平臺;阿里云的人工智能引擎ET還為“城市大腦”其它四大系統(tǒng)提供人工智能內(nèi)核。
舉個例子來說,杭州城區(qū)內(nèi)5萬多路視頻攝像頭都將成為這個“城市大腦”的數(shù)據(jù)來源。從2016年3月開始,杭州交警、城管、建委等11個政府部門和西湖區(qū),以及阿里巴巴、華三通信、富士康等13家企業(yè)的上百名人員,聚集在云棲小鎮(zhèn)進(jìn)行研發(fā)。
如此大規(guī)模的研發(fā)目前取得了一定成果。據(jù)悉,9月在杭州蕭山區(qū)部分路段的初步試驗(yàn)中,城市大腦通過智能調(diào)節(jié)紅綠燈,車輛通行速度最高提升了11%。
除了用人工智能優(yōu)化和管理城市外,阿里云還在著力解決全社會物流挑戰(zhàn)。阿里云和菜鳥網(wǎng)絡(luò)合作推出的中國首個物流云平臺“菜鳥物流云”就是在這方面的嘗試。根據(jù)預(yù)測,未來的幾年內(nèi)中國日均包裹量很快突破1個億,無法再依靠傳統(tǒng)的人力勞動模式去送遞包括,必須使用物流云來保證物流網(wǎng)絡(luò)高效運(yùn)轉(zhuǎn)。因此,菜鳥網(wǎng)絡(luò) CTO 王文彬?qū)γ襟w表示,未來物流行業(yè)的競爭力已經(jīng)不是單純依靠規(guī)模和價格的競爭了,技術(shù)競爭將成為關(guān)鍵。
目前阿里云平臺上已經(jīng)出現(xiàn)了單個ISV的年?duì)I收過千萬人民幣水平,李津則希望“能在不遠(yuǎn)的將來出現(xiàn)過億元營收水平的軟件企業(yè)”。而現(xiàn)在,正是企業(yè)級軟件與服務(wù)創(chuàng)業(yè)的好機(jī)會,由于阿里云的成熟和230萬使用者,再加上淘寶與天貓上數(shù)以億計(jì)的活躍商戶,任何SaaS軟件都有機(jī)會觸達(dá)這些潛在小企業(yè)用戶,因此在未來很有可能出現(xiàn)中國自己的企業(yè)級軟件巨頭。