行業(yè)對軟件定義網(wǎng)絡(luò)的理解千人千面,普通認(rèn)為SDN誕生于校園網(wǎng),發(fā)揚光大于擁有中大型數(shù)據(jù)中心的互聯(lián)網(wǎng)公司。阿里集團(tuán)技術(shù)保障部從2010年在飛天集群規(guī)模使用定制TOR交換機(jī)開始,不斷的嘗試和探索Software Defined Everything。本文介紹SDN在阿里集團(tuán)網(wǎng)絡(luò)運維方面的實踐及未來研發(fā)思考。
每年雙十一網(wǎng)購狂歡節(jié),一次次刷新世界交易、支付峰值,對基礎(chǔ)設(shè)施的要求和運維壓力都是巨大的,如何在大規(guī)模、低成本的要求下,還要達(dá)到高可靠性、高穩(wěn)定性、彈性調(diào)度、快速交付是系統(tǒng)網(wǎng)絡(luò)平臺部面臨的挑戰(zhàn),也是嘗試SDN的驅(qū)動力。
阿里巴巴對SDN的理解不是簡單的轉(zhuǎn)發(fā)面和控制面分離,也不是自己做個“SDN交換機(jī)”這么簡單,阿里集團(tuán)的SDN架構(gòu)專注于系統(tǒng)性達(dá)到電子商務(wù)、云計算的特定場景應(yīng)用的相關(guān)特性對操作系統(tǒng)、數(shù)據(jù)庫、網(wǎng)絡(luò)、服務(wù)器、數(shù)據(jù)中心的需求,提升系統(tǒng)、網(wǎng)絡(luò)整體運營能力。讓業(yè)務(wù)不再感知網(wǎng)絡(luò)變化、擁有無物理尺度調(diào)度業(yè)務(wù)池。
先梳理下大規(guī)?;ヂ?lián)網(wǎng)公司數(shù)據(jù)中心網(wǎng)絡(luò)運維都遇到哪些問題:
1、快速交付問題;
2、大量的變更問題;
3、網(wǎng)絡(luò)故障處理對業(yè)務(wù)影響的問題、
4、千差萬別的廠家CLI、版本、設(shè)備型號;
5、網(wǎng)絡(luò)規(guī)劃永遠(yuǎn)趕不上業(yè)務(wù)的變化;
6、網(wǎng)絡(luò)流量流向無序;
一言概之,網(wǎng)絡(luò)在其他團(tuán)隊看來就是個黑洞,網(wǎng)工就是些不靠譜地人,業(yè)務(wù)要自己監(jiān)控網(wǎng)絡(luò)運行狀態(tài),網(wǎng)工顏面掃地。
阿里技術(shù)團(tuán)隊針對上述問題做了如下工作:
一、自動化
1、交付:網(wǎng)絡(luò)集群(萬臺規(guī)模)交付:1小時;
2、變更:封裝各個廠家CLI,提升變更效率;
二、業(yè)務(wù)拓?fù)?br />
無論是運營商、銀行、企業(yè)或是互聯(lián)網(wǎng)公司長期以來網(wǎng)絡(luò)運維關(guān)注的管道級網(wǎng)絡(luò)拓?fù)?。業(yè)務(wù)與網(wǎng)絡(luò)之間的對應(yīng)關(guān)系停留在資深網(wǎng)絡(luò)工程師的腦袋中。
千萬不要認(rèn)為下圖就是一張普通的拓?fù)鋱D,一個VIP對應(yīng)的全部Realserver所在網(wǎng)絡(luò)物理位置和機(jī)房的全部信息都一目了解,這個業(yè)務(wù)IP帶來的多少流量,此流量單位成本一切變成那么清晰。網(wǎng)絡(luò)規(guī)劃不再是拍拍腦袋,抓抓爪子,按按計算器,SDN理想的業(yè)務(wù)級調(diào)度有理有據(jù)。
三、專家系統(tǒng)
英劇“black mirror”帶給我們的沖擊是什么?對,大數(shù)據(jù)分析后是可以復(fù)活一個人。每天在技術(shù)保障部產(chǎn)生的運維日志、網(wǎng)絡(luò)log,告警信息經(jīng)過數(shù)據(jù)挖掘,引入機(jī)器學(xué)習(xí)從Data轉(zhuǎn)發(fā)成information對網(wǎng)絡(luò)運維網(wǎng)絡(luò)事件做到Re-active和Pro-active,我們不再需要資深網(wǎng)式運維網(wǎng)絡(luò)。這其中有著巨 大的想象空間,我們在路上。
四、定制Openflow特性的交換機(jī)
不是用了OF switch才叫運用了SDN,但Controller與switch/router要說話,我們選擇嘗試Openflow協(xié)議,2013年阿里巴巴加入ONF,共同推進(jìn)產(chǎn)業(yè)對標(biāo)準(zhǔn)接口的支持及推動網(wǎng)絡(luò)產(chǎn)業(yè)的開放程度。
五、虛擬網(wǎng)絡(luò)及虛擬網(wǎng)絡(luò)操作系統(tǒng)
網(wǎng)絡(luò)操作系統(tǒng)和網(wǎng)絡(luò)硬件天生是個封閉系統(tǒng),行業(yè)中有了交換套片后,國內(nèi)涌現(xiàn)出一批杰出的網(wǎng)絡(luò)設(shè)備供應(yīng)商。雖然生產(chǎn)交換機(jī)公司不再是高富帥,但網(wǎng)絡(luò)操作系統(tǒng)仍然是個封閉系統(tǒng)。“路由器丟包是太陽黑子活動頻繁引起的”真不是個網(wǎng)絡(luò)笑話,它的確是廠家給出的故障分析報告。Laas開發(fā)工程師一想到網(wǎng)絡(luò)中的VLAN/網(wǎng)關(guān)/IP腦仁都痛。我們要做的是Network as a Service,交換機(jī)要跟服務(wù)器裝機(jī)一樣的標(biāo)準(zhǔn)化,網(wǎng)絡(luò)的管理和使用要像自來水一樣方便快捷。因此我們思考將網(wǎng)絡(luò)硬件與網(wǎng)絡(luò)操作系統(tǒng)分離,抽象出虛擬網(wǎng)絡(luò)操作系統(tǒng)。
六、虛擬光網(wǎng)絡(luò)也是我們重點關(guān)注的技術(shù)之一,Google B4是個過去式。
人說SDN落地最大的阻礙是CCIE,是資深網(wǎng)絡(luò)工程師。阿里網(wǎng)工就要將技術(shù)做深做透,革掉傳統(tǒng)網(wǎng)絡(luò)運維習(xí)慣。