隨著數(shù)據(jù)中心建設的規(guī)模越來越大,新技術越來越多,承載數(shù)據(jù)中心業(yè)務的網(wǎng)絡變得異常復雜。為了適應數(shù)據(jù)中心業(yè)務的發(fā)展,數(shù)據(jù)中心網(wǎng)絡也在不斷更新與變化,這給日后的運維帶來了極大難度。談到數(shù)據(jù)中心網(wǎng)絡運維,其實是老生常談的問題,也是數(shù)據(jù)中心里問題最為突出的部分,這主要源于網(wǎng)絡技術的封閉性和排它型,當然網(wǎng)絡協(xié)議和設備設計的復雜性也有一定關系,這導致掌握網(wǎng)絡運維要領要比掌握其它技術難度要大得多,所以在網(wǎng)絡運維過程中才出現(xiàn)了各種各樣的問題,而且網(wǎng)絡設備一旦出現(xiàn)問題,尤其是核心網(wǎng)絡問題,影響的將是整個數(shù)據(jù)中心的業(yè)務,有時又沒有網(wǎng)絡備份可用,在這樣危機的情況下更考驗運維人員的綜合處理問題能力,各種因素影響下導致了網(wǎng)絡運維上出現(xiàn)了多種難題,本文就來說一說這些難題,看大家在數(shù)據(jù)中心運維工作中是否有同感,是否有更好的應對之策。
難題一:太多手工操作期盼減少
數(shù)據(jù)中心網(wǎng)絡運維人員最怕的就是做網(wǎng)絡變更,因為涉及太多的命令操作,而弄不好就容易出錯。如果網(wǎng)絡運維可以有自動部署的方式,那可以大大減少運維人員的工作時間,也不容易出錯,作為數(shù)據(jù)中心網(wǎng)絡運維人員沒有必要對這些網(wǎng)絡底層命令有過多了解,只要通過網(wǎng)絡變更滿足業(yè)務需求即可。實際上,這類難題在運維工作中是最為突出的,很多網(wǎng)絡設備命令晦澀,讓人難以理解,運維的人根本沒有時間和能力去走讀每篇RFC文檔,需要的是簡單明了的解決方案,SDN的出現(xiàn)或許可以減輕運維人員對手工操作的依賴,但未來能夠發(fā)展到何種程度,還是未知數(shù)。
難題二:網(wǎng)絡變更很困難跟不上需求
數(shù)據(jù)中心業(yè)務部門的需求是多種多樣的,尤其是為了業(yè)績,很多不合理的需求也接納,到了實施的時候才發(fā)現(xiàn)困難重重。很多業(yè)務部門對數(shù)據(jù)中心網(wǎng)絡并沒有清晰的了解,也不知道現(xiàn)有的網(wǎng)絡能夠提供什么,這就導致兩面的脫節(jié),最終導致很多需求根本無法通過網(wǎng)絡變更來實現(xiàn),或者是網(wǎng)絡變更會影響現(xiàn)有業(yè)務,付出很大的代價。
難題三:網(wǎng)絡操作需跟系統(tǒng)集成商協(xié)作問題
網(wǎng)絡只是數(shù)據(jù)中心最為重要的一部分,任何業(yè)務的運行都離不開網(wǎng)絡部分,所以網(wǎng)絡的任何操作都需要與其它系統(tǒng)模塊溝通好,避免造成整個系統(tǒng)運行受到影響。這里就涉及到和系統(tǒng)集成商打交道。
難題四:忙于維護 難快速部署新業(yè)務
如果一個數(shù)據(jù)中心網(wǎng)絡本身設計就有先天缺陷,那頻繁出問題是必然的。這樣的數(shù)據(jù)中心網(wǎng)絡運維人員也是每天都忙于處理各種各樣的網(wǎng)絡問題,尤其是已經(jīng)影響到業(yè)務運行的問題,這樣根本沒有精力部署新業(yè)務。這樣的惡性循環(huán)導致整個數(shù)據(jù)中心的業(yè)務都無法推進,最終流失大量客戶。
難題五:部署網(wǎng)絡麻煩
數(shù)據(jù)中心里的設備要實現(xiàn)互聯(lián)互通,都要有自己的IP地址或MAC地址,用這些來代表自己在網(wǎng)絡里的身份。運維人員要對這些身份在網(wǎng)絡中進行適配,比如下發(fā)動態(tài)路由學習或者靜態(tài)路由,需要配置網(wǎng)關、DHCP等,這些配置甚至要在全網(wǎng)的所有網(wǎng)絡設備上部署。有的數(shù)據(jù)中心從核心到接入,多達數(shù)百臺網(wǎng)絡設備,一臺一臺配置顯然是非常麻煩的,如何減輕這方面的工作量,對于提升運維工作效率特別有意義。
難題六:簡單工具手動管理IP地址
網(wǎng)絡運維人員平時要對這些設備的IP地址進行管理,以便在使用時或者故障時能夠找到自己想要的那臺,這個數(shù)量是海量的。一個大型數(shù)據(jù)中心服務器上萬臺是很平常的,這樣整理這些設備的IP地址就需要很長的時間。運維人員只能通過簡單的Excel表格來管理,用的時候進行查找,有更新時進行記錄,這個數(shù)據(jù)必須要實時更新才能準確,這需要運維人員投入大量的精力來維護這個表單,工作繁瑣。
難題七:網(wǎng)絡設備類型多,全掌握難度大
最令運維人員頭痛的是網(wǎng)絡設備類型繁多,不同廠家的設備命令風格和含義均不同,就算是一個廠商的不同型號設備也會不同。這給網(wǎng)絡運維帶來了極大難度,運維人員不得不掌握數(shù)據(jù)中心里所有設備的基本操作命令,要花大量的時間去熟悉這些設備,一般的網(wǎng)絡設備命令都有數(shù)千條,要全掌握基本不可能,再加上是不同型號的設備,運維人員會瘋掉。
難題八:網(wǎng)管團隊技術水平不高
目前數(shù)據(jù)中心的網(wǎng)管主要是對運行的網(wǎng)絡設備進行監(jiān)控,但實際上主要就是將設備上的日志告警提取出來,然后給出一些告警提示,還有就是通過網(wǎng)管可以獲取一些設備信息。實際上,網(wǎng)管對運維工作支持不是很大。真正的智能網(wǎng)管應該代替運維人員的部分工作,比如下發(fā)配置變更、業(yè)務故障自動切換網(wǎng)絡、網(wǎng)絡自檢等等,通過網(wǎng)管實現(xiàn)對網(wǎng)絡真正的智能化管理,減少運維人員的工作量,要實現(xiàn)這些還需要網(wǎng)管技術進一步提升。
難題九:要掌握的工具太多
以太網(wǎng)RFC協(xié)議有8000多篇,根據(jù)網(wǎng)絡的五大層有多種多樣的協(xié)議定義。正是網(wǎng)絡協(xié)議的多樣性,所以要設計很多的輔助工具去掌握它,在進行網(wǎng)絡分析時也要借助很多的工具。比如XPING、Tracert、抓包工具、IP掩碼換算等等,這些工具很多,很多還是網(wǎng)絡上開源的小工具,有各種各樣的BUG,使用起來也不方便,但是在網(wǎng)絡運維時又不得不用,有時實在用不了就自己開發(fā)個小工具,正是因為這樣,所以網(wǎng)絡上才出現(xiàn)了那么多的網(wǎng)絡分析小工具。
難題十:運維工作苦、收入低
網(wǎng)絡運維是功能,性價比不高,作為數(shù)據(jù)中心里重要的一部分,網(wǎng)絡的重要性并沒有體現(xiàn)到網(wǎng)絡運維的收入上,這就導致沒有人愿意在運維工作上深入鉆研,做運維的人員大多是工作1~3年的初級技術人員,缺少一些10年以上資深的網(wǎng)絡專家,這導致數(shù)據(jù)中心的運維水平無法提升。
顯而易見,數(shù)據(jù)中心網(wǎng)絡運維面臨不少難題,是數(shù)據(jù)中心里的短板。哪個數(shù)據(jù)中心能解決好網(wǎng)絡運維的問題,也就能在這個圈內混得好。