摘要: 當范冰冰和李晨在微博上攜手公開戀情的時候,他們一定想不到,這段戀情居然影響到了中國科技界的發(fā)展。
一年多前的晨冰戀很多人還記憶猶新。2015年5月29日,晨與范冰冰在新浪微博上曬出甜蜜合影并配文“我們”,宣布兩人戀情。這股“我們”風潮在創(chuàng)造了微博2小時閱讀量超1000萬的記錄,聯(lián)合國的官方微博也趁熱曬出了一張前聯(lián)合國秘書長潘基文與妻子的合影。
然而,誰也不會想到,娛樂圈的蝴蝶扇動了一下翅膀,竟引發(fā)了中國科技界的一次創(chuàng)新,促成了微博與阿里云史上最大規(guī)模的混合云實踐。
當流量激增形成脈沖計算,要保證系統(tǒng)的穩(wěn)定性和服務(wù)的正常運轉(zhuǎn),唯一的辦法就是快速擴容,甚至實時擴容。“晨冰戀”話題發(fā)酵期間,新浪微博開始引入阿里云的彈性計算資源來應(yīng)對流量短時高峰。
到2017年,包括微博的Feed、廣告、搜索、話題、視頻、直播、手機微博、圖片等多個核心業(yè)務(wù)系統(tǒng)已部分遷移至了阿里云平臺,除夕期間的“紅包飛”業(yè)務(wù)則100%架構(gòu)在阿里云上。由于微博的用戶規(guī)模和業(yè)務(wù)體量以及特殊的社交媒體特性,微博與阿里云不僅實現(xiàn)了雙方史上最大規(guī)模混合云,而且在全球范圍來看也是極具代表意義。
微博獨特短時流量高峰現(xiàn)象根據(jù)2017年2月發(fā)布的第四財季報,微博表現(xiàn)出強勁營收和盈利能力增長。與此同時,也頻繁出現(xiàn)了微博短時間內(nèi)流量沖高的獨特社交媒體現(xiàn)象。媒體和明星名人集中選擇微博作為獨家發(fā)布平臺,奧運會期間有近300名運動員發(fā)布微博,總互動量接近5.79億。而霍建華與林心如婚禮等明星公眾事件,都給微博造成了短時流量沖高的挑戰(zhàn)。
“(晨冰戀)那一次由于峰值流量迅猛且持續(xù)時間長,信息流業(yè)務(wù)受到很大影響,由此我們開始深入研究云計算技術(shù)以及如何利用公共云應(yīng)對流量瞬時高峰。”微博研發(fā)中心研發(fā)總監(jiān)劉道儒告訴鈦媒體。
他還認為,對于微博來說,需在十幾分鐘內(nèi)完成上千臺服務(wù)節(jié)點擴容。如果僅為應(yīng)對流量高峰而常備一兩千臺空閑服務(wù)器,這對公司來說成本也太大。這就是后來與阿里云合作的起因。
2015年“晨冰戀”之后,接下來一個里程碑事件就是2016年 8月的奧運會,創(chuàng)造了當時微博新的歷史峰值,而且是持續(xù)的峰值。就是在此奧運期間,微博內(nèi)部通過DCP平臺彈性調(diào)度上云的業(yè)務(wù)都經(jīng)受住了流量沖擊,而沒有彈性上云的業(yè)務(wù)則或多或少受到了影響,也由此引發(fā)了后來微博內(nèi)部核心業(yè)務(wù)的大規(guī)模上云。
除了用戶和流量的持續(xù)增加外,視頻內(nèi)容的增加也給微博帶來了流量增點,這些都需要依賴可靠的IT支撐。
基于Docker的無人值守混合云微博平臺核心總體分為前端和后端平臺,前端主要是PC端、移動端、開放平臺以及企業(yè)開放平臺,后端平臺主要是Java、PHP編寫的各種接口層、服務(wù)層、中間件層及存儲層。就平臺前端來說,每日超過千億次的API調(diào)用、超過萬億的RPC調(diào)用,產(chǎn)生的日志就達百T+。這么大體量的業(yè)務(wù)系統(tǒng)對于運維的要求也很嚴格,例如接口層的SLA服務(wù)水平協(xié)議就必須達到4個9,接口平均響應(yīng)時間不能高于50ms。
每年的元旦、春晚、紅包飛等會為微博帶來巨大的流量挑戰(zhàn),這些業(yè)務(wù)場景的主要特點是:瞬間峰值高、持續(xù)時間短。每一次峰值事件的互動時間在3小時左右,而明星事件、紅包飛等業(yè)務(wù),經(jīng)常會遇到高達多倍的瞬間峰值。微博IT的傳統(tǒng)應(yīng)對手段,主要是“靠提前申請足夠的設(shè)備保證冗余、降級非核心及周邊的業(yè)務(wù)”這兩種,除了需要提前預(yù)知相關(guān)IT成本外,還有業(yè)務(wù)負載飽和度不一、擴縮容流程繁瑣且周期長等問題。
微博研發(fā)中心資深架構(gòu)師付穩(wěn)介紹說,為了更好的應(yīng)對微博這種特殊的業(yè)務(wù)場景,微博基于云計算等新技術(shù)設(shè)計與實現(xiàn)了新一代基于Docker的混合云平臺DCP(Docker Container Platform)。DCP目前已經(jīng)具備20分鐘將服務(wù)器部署規(guī)模擴大1倍的交付能力,并在2015年和2016年的雙11、三節(jié)(圣誕、元旦、春晚)、紅包飛等場景中得到了很好的考驗,覆蓋了100%的微博業(yè)務(wù)線,包括手機微博、紅包飛等。
所謂20分鐘內(nèi)彈性擴容1倍服務(wù)器規(guī)模,即阿里云要滿足10分鐘內(nèi)完成上千臺服務(wù)器的創(chuàng)建與交付,同時,微博DCP平臺則在接下來的10分鐘內(nèi)完成服務(wù)器的初始化、服務(wù)調(diào)度、上線等全流程,包括操作系統(tǒng)的安裝、Docker及運維軟件環(huán)境的安裝、各種授權(quán)、服務(wù)的啟動、流量的引入、上線等,這些全部在20分鐘內(nèi)完成。
付穩(wěn)介紹說,DCP目前已經(jīng)實現(xiàn)全自動化的“無人值守”式運維,只需要人工填寫所需設(shè)備的數(shù)量后,運維軟件會自動完成向阿里云的申請、擴容和縮容等工作而無需人工參與。
混合云的關(guān)鍵之一是實現(xiàn)雙方資源的無縫銜接,專有網(wǎng)絡(luò)VPC是核心功能。為此,雙方在2017年春節(jié)期間部署開通了超100Gb的專線。“這也是目前行業(yè)內(nèi)幾乎沒人做過的超大規(guī)模雙冗余百Gb專線”,參與該項目的阿里云工程師陸震洧介紹。
改造后,阿里云資源和微博原有的數(shù)據(jù)中心組成了可稱之為無邊界的計算資源池,對業(yè)務(wù)系統(tǒng)來說無區(qū)別,但擴容更加靈活快捷。微博實現(xiàn)了從提前擴容到實時擴容的升級,可以結(jié)合實際的流量負載與實時數(shù)據(jù)對預(yù)估峰值進行動態(tài)調(diào)整。
2017年春晚,微博首次實現(xiàn)了全業(yè)務(wù)無降級的混合云架構(gòu)實踐,平穩(wěn)渡過了流量新高峰,阿里云部署了近5000臺服務(wù)器,這一數(shù)字在2016年的除夕夜是1400臺。
微博與阿里云在混合云方面的合作,云服務(wù)器ECS的彈性計算僅是開始。平臺所應(yīng)用的產(chǎn)品還包括負載均衡、對象存儲OSS、緩存服務(wù)、專有網(wǎng)絡(luò)VPC等計算、存儲、網(wǎng)絡(luò)、數(shù)據(jù)庫相關(guān)服務(wù),以及CDN、視頻直播服務(wù)、安全濾網(wǎng)、OCR圖片鑒黃、大數(shù)據(jù)等等,“幾乎阿里云所有的核心產(chǎn)品都在用。”
創(chuàng)造社交媒體新歷史“10分鐘將服務(wù)器部署規(guī)模擴大1倍,20分鐘內(nèi)完成所有的調(diào)整和上線,這在國內(nèi)還處于非常領(lǐng)先的水平。絕大多數(shù)國內(nèi)技術(shù)團隊做不到,這是因為他們沒有把這件事情標準化,主要原因是沒有業(yè)務(wù)動力。”劉道儒表示微博業(yè)務(wù)的獨特性造就了國內(nèi)社交媒體史上最大規(guī)模的混合云。
“混合云項目在微博內(nèi)部拿了創(chuàng)新大獎,峰值流量來臨時,外部讓用戶可以無感知地使用微博,雙方的成功也是一個很好的混合云模式。包括病毒式話題擴散速度、明星事件等對云上彈性擴容和高效要求,很多都沒有條件提前驗證,而是雙方一起合作、消滅了各種問題。”
從單一和基本業(yè)務(wù)流程再到全業(yè)務(wù)流程轉(zhuǎn)到阿里云,從半自動化到全自動化,這經(jīng)歷了很長時間的磨合。尤其是在2016年,微博業(yè)務(wù)會在每天晚上做例行的阿里云動態(tài)擴容,晚上8點開始申請到晚上12點下線服務(wù)器,通過不間斷演練來打磨產(chǎn)品、技術(shù)以及雙方的合作。
對于微博來說,也在這個過程中完成了DCP全自動化運維平臺軟件的開發(fā)及周邊技術(shù)體系的建設(shè)。劉道儒表示,隨著DCP技術(shù)的成熟,2016年年底DCP主要功能已通過OpenDCP開源,以供業(yè)界用于基于阿里云的混合云管理。這也恰恰讓人們看到,IT部門已完成了從成本中心轉(zhuǎn)變?yōu)閯?chuàng)新中心、價值中心。
經(jīng)過了2017年春晚的考驗,如今微博已經(jīng)放心地把紅包飛業(yè)務(wù)全部遷移到了阿里云上,同時,F(xiàn)eed、手機微博、廣告、搜索、話題、視頻、直播以及相關(guān)的有信、紅豆Live等多個業(yè)務(wù)也完成了服務(wù)上云。除了共百GB以上雙專線外,微博還在阿里云上實現(xiàn)了雙可用區(qū),多VPC專有網(wǎng)絡(luò)冗余環(huán)境。
微博與阿里云共同創(chuàng)造的混合云平臺,更好的滿足了業(yè)務(wù)快速發(fā)展對計算資源的需求,并支撐了中國最大社交網(wǎng)絡(luò)之一的新業(yè)務(wù)開發(fā)以及整體業(yè)務(wù)平穩(wěn)運行。而恐怕李晨和范冰冰自己也不會想到,當時的舉動對于微博采用云計算優(yōu)化造成了直接的影響吧!