騰訊云CDN穩(wěn)定背后的秘密

責(zé)任編輯:jcao

2016-12-27 16:46:34

來(lái)源:企業(yè)網(wǎng)D1Net

原創(chuàng)

回顧2016年,多家CDN廠商頻頻被爆出大大小小的事故。就連國(guó)內(nèi)一些云計(jì)算巨頭,近來(lái)也由于服務(wù)的不穩(wěn)定,引發(fā)了多起大規(guī)模的故障,導(dǎo)致客戶業(yè)務(wù)長(zhǎng)時(shí)間不可用,用戶利益受到直接損害。反觀騰訊云CDN,十年的運(yùn)營(yíng)過(guò)程中,其服務(wù)穩(wěn)定性方面的表現(xiàn),在業(yè)內(nèi)有口皆碑。

近年來(lái),隨著直播等大流量互聯(lián)網(wǎng)業(yè)務(wù)的興起,CDN業(yè)務(wù)隨之呈現(xiàn)飛速的發(fā)展。傳統(tǒng)CDN廠商與各大云服務(wù)提供商搶占市場(chǎng),紛紛降價(jià)的同時(shí)也大規(guī)模擴(kuò)張著CDN節(jié)點(diǎn)。

快速的擴(kuò)張容易忽視一個(gè)重要的問(wèn)題:業(yè)務(wù)規(guī)模的快速發(fā)展,若沒(méi)有一套完備的支撐系統(tǒng),會(huì)引起諸多質(zhì)量問(wèn)題。輕則引起業(yè)務(wù)時(shí)延變高、成功率下降;重則有可能導(dǎo)致災(zāi)難性的長(zhǎng)時(shí)間、大面積的系統(tǒng)癱瘓。

回顧2016年,多家CDN廠商頻頻被爆出大大小小的事故。就連國(guó)內(nèi)一些云計(jì)算巨頭,近來(lái)也由于服務(wù)的不穩(wěn)定,引發(fā)了多起大規(guī)模的故障,導(dǎo)致客戶業(yè)務(wù)長(zhǎng)時(shí)間不可用,用戶利益受到直接損害。反觀騰訊云CDN,十年的運(yùn)營(yíng)過(guò)程中,其服務(wù)穩(wěn)定性方面的表現(xiàn),在業(yè)內(nèi)有口皆碑。

本文將從影響CDN穩(wěn)定性的幾個(gè)因素出發(fā),探究騰訊云CDN穩(wěn)定背后的秘密。

一、網(wǎng)絡(luò)質(zhì)量

網(wǎng)絡(luò)質(zhì)量是影響CDN穩(wěn)定性的首要因素,運(yùn)營(yíng)商的網(wǎng)絡(luò)環(huán)境會(huì)發(fā)生間歇性、地域性的抖動(dòng)甚至服務(wù)中斷,在用戶看來(lái)癥狀往往是網(wǎng)絡(luò)速度變慢、訪問(wèn)成功率下降,嚴(yán)重的會(huì)引起大規(guī)模的業(yè)務(wù)投訴。

為了避免運(yùn)營(yíng)商網(wǎng)絡(luò)質(zhì)量對(duì)CDN的影響,需要從兩個(gè)層面來(lái)規(guī)避:

1) 快速精準(zhǔn)的感知網(wǎng)絡(luò)質(zhì)量的變化,在故障出現(xiàn)的初期將業(yè)務(wù)調(diào)離故障區(qū)域。做為CDN平臺(tái),對(duì)質(zhì)量的監(jiān)控是標(biāo)準(zhǔn)動(dòng)作,但如何快速精準(zhǔn)卻是最大的挑戰(zhàn)。

騰訊云CDN,擁有全國(guó)最準(zhǔn)確的IP庫(kù),同時(shí)背靠騰訊的大數(shù)據(jù)平臺(tái),可以從海量的業(yè)務(wù)上報(bào)信息中快速感知網(wǎng)絡(luò)波動(dòng)。騰訊網(wǎng)絡(luò)路由質(zhì)量評(píng)測(cè)系統(tǒng)Q調(diào),以QQ和QQ空間秒級(jí)上報(bào)的海量數(shù)據(jù)為基準(zhǔn),可快速分析出地區(qū)運(yùn)營(yíng)商級(jí)的時(shí)延遲、成功率波動(dòng),并智能化的結(jié)合歷史、外圍信息分析,給出鏈路質(zhì)量的定性評(píng)估。給GSLB調(diào)度系統(tǒng)更加快速、準(zhǔn)確、合理的調(diào)度提供依據(jù)。

對(duì)于深度合作的客戶業(yè)務(wù),騰訊云CDN會(huì)將其上報(bào)的質(zhì)量信息納入決策系統(tǒng),更加真實(shí)的反應(yīng)業(yè)務(wù)實(shí)時(shí)的網(wǎng)絡(luò)質(zhì)量情況。

快速感知到網(wǎng)絡(luò)質(zhì)量問(wèn)題把業(yè)務(wù)調(diào)走只是第一步。可以調(diào)度到合理的節(jié)點(diǎn),業(yè)務(wù)質(zhì)量不受影響,才是最終的目的,這個(gè)時(shí)候資源覆蓋的廣度和合理性顯得更加重要。

2) 騰訊云CDN在全國(guó)部署了500+加速節(jié)點(diǎn),這些節(jié)點(diǎn)合理地分布在了各省市自治區(qū),同時(shí)涵蓋了移動(dòng)、聯(lián)通、電信三大運(yùn)營(yíng)商以及數(shù)十家中小型運(yùn)營(yíng)商,對(duì)于重點(diǎn)的省份、地區(qū)、運(yùn)營(yíng)商實(shí)現(xiàn)多節(jié)點(diǎn)覆蓋。當(dāng)部分節(jié)點(diǎn)服務(wù)不佳,GSLB有很多選擇將用戶調(diào)度到相同服務(wù)質(zhì)量的節(jié)點(diǎn),并且有足夠的冗余承載這些服務(wù),同時(shí)盡量避免跨區(qū)域調(diào)度,保證低時(shí)延。

 

騰訊云全國(guó)CDN節(jié)點(diǎn)分布圖

SOC是騰訊云CDN近期大力建設(shè)的資源之一,在全國(guó)多個(gè)重點(diǎn)區(qū)域部署超大存儲(chǔ)量、帶寬資源豐富、網(wǎng)絡(luò)質(zhì)量高的超級(jí)節(jié)點(diǎn)。這樣在邊緣節(jié)點(diǎn)出現(xiàn)大面積網(wǎng)絡(luò)故障時(shí),就可以無(wú)縫承接附近大面積邊緣節(jié)點(diǎn)的負(fù)載。此外,通過(guò)全網(wǎng)監(jiān)控、智能調(diào)度、多節(jié)點(diǎn)覆蓋、SOC容災(zāi)等方案,騰訊云CDN能夠輕松應(yīng)對(duì)運(yùn)營(yíng)商日常的各種網(wǎng)絡(luò)問(wèn)題。

 

騰訊云SOC節(jié)點(diǎn)示意圖

二、節(jié)點(diǎn)異常

第二個(gè)可能影響到CDN質(zhì)量的問(wèn)題是節(jié)點(diǎn)異常。因此應(yīng)對(duì)個(gè)別節(jié)點(diǎn)出現(xiàn)磁盤(pán)、網(wǎng)卡等硬件故障,以及系統(tǒng)、程序等軟件故障,甚至是業(yè)務(wù)突增帶來(lái)的系統(tǒng)高負(fù)載等等各種異常,則必須考慮保持CDN系統(tǒng)穩(wěn)定性。

騰訊云CDN在全國(guó)有500多個(gè)加速節(jié)點(diǎn),涉及到萬(wàn)臺(tái)設(shè)備,在節(jié)點(diǎn)故障這個(gè)可控性更高的問(wèn)題上,有著充分的話語(yǔ)權(quán)。同時(shí)騰訊業(yè)務(wù)多年海量服務(wù)的運(yùn)營(yíng)經(jīng)驗(yàn),為騰訊云CDN保障客戶業(yè)務(wù)運(yùn)維正常,提供了技術(shù)、服務(wù)支撐:

1) 在節(jié)點(diǎn)軟硬件故障上,通過(guò)將秒級(jí)監(jiān)控與切換、版本灰度發(fā)布、柔性可用、過(guò)載保護(hù)等海量技術(shù)融合到CDN具體的業(yè)務(wù)場(chǎng)景中,實(shí)現(xiàn)了節(jié)點(diǎn)、設(shè)備的有效管理與容災(zāi)。

2) 在業(yè)務(wù)突增上,快速感知節(jié)點(diǎn)流量的變化并進(jìn)行調(diào)度是基本的手段,在此基礎(chǔ)上,騰訊云CDN同時(shí)也根據(jù)具體的業(yè)務(wù)特點(diǎn),作了不少針對(duì)性的優(yōu)化:以當(dāng)下很火的直播為例,不同于其他業(yè)務(wù)類型,直播業(yè)務(wù)都會(huì)在短時(shí)間內(nèi)突發(fā)大量的用戶請(qǐng)求。為了能快速、準(zhǔn)確地預(yù)估節(jié)點(diǎn)的請(qǐng)求量與負(fù)載情況,騰訊云CDN采用SNMP協(xié)議采集交換機(jī)流量,代替以往應(yīng)用層上報(bào)流量的方式,將數(shù)據(jù)采集延遲由分鐘級(jí)降低到秒級(jí),同時(shí)將機(jī)器學(xué)習(xí)算法應(yīng)用于節(jié)點(diǎn)負(fù)載曲線的預(yù)測(cè)中。對(duì)于可能超負(fù)載的節(jié)點(diǎn),能夠做到實(shí)時(shí)預(yù)測(cè)、提前感知、事前預(yù)防。

騰訊云視頻直播預(yù)測(cè)調(diào)度效果

三、系統(tǒng)安全

系統(tǒng)安全是任何一個(gè)CDN服務(wù)商都無(wú)法回避的問(wèn)題。不論是各種形式的DNS攻擊,還是DDos攻擊、CC攻擊,任何一種攻擊,都足以讓CDN大面積甚至是全部癱瘓。

在這一點(diǎn)上,騰訊云CDN有一整臺(tái)完善的立體防護(hù)體系。DDos防護(hù),本質(zhì)上是拼的是資源消耗。騰訊云CDN獨(dú)有的帶寬資源、機(jī)器資源,能夠?yàn)橛脩籼峁┏髱挼腄Dos防護(hù)。從入口的高防DNS,到第一跳的高防CDN節(jié)點(diǎn),再到源站的高防專區(qū),保證全鏈路的防護(hù)萬(wàn)無(wú)一失。

另一方面,通過(guò)模式識(shí)別、身份識(shí)別等多種手段,騰訊云CDN能夠精確識(shí)別惡意訪問(wèn)者,有效防止CC攻擊。

騰訊云DDoS防護(hù)方案全景

四、業(yè)務(wù)級(jí)故障

來(lái)自業(yè)務(wù)方自身的問(wèn)題,往往是最棘手的。由于每個(gè)業(yè)務(wù)有不盡相同的特性,而且各個(gè)業(yè)務(wù)自身在資源、能力方面都各有差異,因此常規(guī)的方法,在這種場(chǎng)景下就顯得有些捉襟見(jiàn)肘。

騰訊云CDN另辟蹊徑,一方面,為業(yè)務(wù)建立了通用的評(píng)估體系——四維質(zhì)量體系,從調(diào)度、傳輸、存儲(chǔ)、回源等角度,考量業(yè)務(wù)各方面的質(zhì)量以及合理性,從而評(píng)估出各個(gè)維度的優(yōu)化空間。另一方面,從主動(dòng)服務(wù)的角度入手,CDN系統(tǒng)盡量減少對(duì)業(yè)務(wù)的依賴,比如設(shè)計(jì)多級(jí)回源系統(tǒng),將邊緣節(jié)點(diǎn)到客戶源站的回源流量降到最低等。此外,針對(duì)重點(diǎn)客戶,騰訊云CDN還專門為客戶量身打造了一套專屬的業(yè)務(wù)評(píng)估模型,根據(jù)客戶具體的業(yè)務(wù)形態(tài),一對(duì)一重點(diǎn)優(yōu)化,在保證系統(tǒng)穩(wěn)定運(yùn)行的前提下,持續(xù)為客戶優(yōu)化各項(xiàng)參數(shù)。

五、服務(wù)體系

作為云計(jì)算戰(zhàn)場(chǎng)的必爭(zhēng)之地,CDN服務(wù)的穩(wěn)定性,在很大程度上體現(xiàn)了一家云服務(wù)商的實(shí)力,同時(shí)也在很大程度上反映了一個(gè)云服務(wù)商的未來(lái)能走站多高、走多遠(yuǎn)。騰訊云CDN,配合數(shù)百位7*24小時(shí)專業(yè)服務(wù)的運(yùn)維、售后團(tuán)隊(duì),在系統(tǒng)穩(wěn)定上的杰出表現(xiàn),經(jīng)受了包括堅(jiān)果手機(jī)發(fā)布會(huì)“黑色半小時(shí)” 、快手GIF、芒果TV、CNTV等多家客戶的多次考驗(yàn),確立了行業(yè)領(lǐng)先地位。

基于騰訊在交互領(lǐng)域多年的運(yùn)維經(jīng)驗(yàn),騰訊云CDN在未來(lái)的發(fā)展中,憑借其穩(wěn)定、安全的技術(shù)優(yōu)勢(shì)加持,將會(huì)為云計(jì)算行業(yè)賦予更大的動(dòng)能。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)