標(biāo)準(zhǔn)化不統(tǒng)一
數(shù)據(jù)中心是多種信息系統(tǒng)的綜合體,涉及很多方面的技術(shù),而且每種技術(shù)又會細(xì)分類別,這樣產(chǎn)生了多種多樣的差異化產(chǎn)品,雖然數(shù)據(jù)中心領(lǐng)域有公認(rèn)的幾個巨頭企業(yè),即便這樣每個企業(yè)也難以覆蓋到數(shù)據(jù)中心所有產(chǎn)品,這導(dǎo)致數(shù)據(jù)中心里的軟硬件差異性較大,不同產(chǎn)品實現(xiàn)也有差異,使用習(xí)慣也不同,有的產(chǎn)品為了提升競爭力,支持了一些特有的先進(jìn)技術(shù),這些導(dǎo)致運維的工作中需要進(jìn)行大量兼容性配置,做不到兼容的地方就需要掌握這些配置差異的地方,避免用錯。比如數(shù)據(jù)中心網(wǎng)絡(luò)部分,這是數(shù)據(jù)中心里差異性最大的部分之一,這里面有不少協(xié)議都是私有協(xié)議,沒有按照標(biāo)準(zhǔn)實現(xiàn),這樣在設(shè)備之間互通就存在問題。數(shù)據(jù)中心在進(jìn)行網(wǎng)絡(luò)擴(kuò)容時,沒有選擇余地。還有不同網(wǎng)絡(luò)企業(yè)的產(chǎn)品操作命令行風(fēng)格也不同,相同功能協(xié)議的配置和運維的使用方法都不同,甚至以前在網(wǎng)絡(luò)企業(yè)之間還因為命令行過于相似互相打過官司,設(shè)計涉及到了侵權(quán),這使得網(wǎng)絡(luò)協(xié)議實現(xiàn)五花八門,但做網(wǎng)絡(luò)的運維可慘了,必須要掌握多家網(wǎng)絡(luò)企業(yè)產(chǎn)品的使用特點和命令行風(fēng)格,這也是云計算為何那么受數(shù)據(jù)中心歡迎的重要原因。云計算實現(xiàn)的基礎(chǔ)就是要求數(shù)據(jù)中心在計算、存儲和網(wǎng)絡(luò)硬件,以及軟件、配置等等方面形成統(tǒng)一標(biāo)準(zhǔn),只有這樣才能部署云計算,這可給運維的工作帶來了極大便利。運維的人員只需遵循一套統(tǒng)一標(biāo)準(zhǔn)來管理設(shè)備,可忽略不同產(chǎn)品之間的差異,極大提升了運維的工作效率。
業(yè)務(wù)及設(shè)備需人工手動部署
在數(shù)據(jù)中心整個生命周期過程中,要經(jīng)歷無數(shù)次大大小小的各種業(yè)務(wù)割接、擴(kuò)容、變更事件,數(shù)據(jù)中心業(yè)務(wù)發(fā)展越快,這類工作越頻繁。傳統(tǒng)數(shù)據(jù)中心在進(jìn)行業(yè)務(wù)部署時,要進(jìn)行大量的手工配置,這些配置一旦出錯不僅影響到新業(yè)務(wù)上線,還可以對原有業(yè)務(wù)造成沖擊,所以每次部署時,運維的人員心里面緊張得不得了,每個操作都要小心翼翼。要知道數(shù)據(jù)中心里80%的故障都是人為故障,可見與機(jī)器相比,人是不夠可靠的。機(jī)器只要我們提前給設(shè)置好既定程序,除非壞了,否則永遠(yuǎn)都會按照程序來走,人是感性思維的動物,經(jīng)常受到外界的干擾,執(zhí)行程序就可能會有錯誤。人工手動部署業(yè)務(wù)不僅極大增加了運維的工作量,還增加了系統(tǒng)操作失誤風(fēng)險。如今,不少的數(shù)據(jù)中心開始建設(shè)云管理平臺,就是要用軟件代替人工,由軟件實現(xiàn)業(yè)務(wù)和設(shè)備的自動上下線,實現(xiàn)資源快速上線、擴(kuò)容與下線。只需要安排低技能人員將設(shè)備上架、上網(wǎng)和上電就可以,后面的事情交由云管理的平臺完成。
設(shè)備軟件升級困難
數(shù)據(jù)中心里各種設(shè)備成千上萬,經(jīng)常會出現(xiàn)這樣那樣的軟件問題,這時就需要及時更新軟件解決問題。不過,很多時候為了解決問題必須更換設(shè)備的軟件版本,這讓數(shù)據(jù)中心很難處理。數(shù)據(jù)中心很多業(yè)務(wù)要求7*24小時在線,如果設(shè)備之間沒有很好的備份,冒失地對這些設(shè)備進(jìn)行重啟升級軟件,必然會造成業(yè)務(wù)大面積的中斷,這是數(shù)據(jù)中心不能接受的。所以每次做軟件升級都是一件非常復(fù)雜的事情,需要進(jìn)行業(yè)務(wù)的遷移,有時還要計算好升級的每個步驟,恰好時間,將業(yè)務(wù)中斷的時間壓縮到最短,這需要升級之前做大量的準(zhǔn)備工作,甚至包括實驗室的模擬實驗,以便找到最佳的升級方式和方法,所以每次升級軟件,運維的人員都累的像剝了一層皮,身心疲憊。所以,數(shù)據(jù)中心運維的人員對設(shè)備不能無中斷業(yè)務(wù)升級充滿怨言,一直在找尋那些可以實現(xiàn)自動升級的解決方案,具備這樣能力的產(chǎn)品將成為數(shù)據(jù)中心重要的參考項。
運維的監(jiān)控不夠?qū)崟r
大部分重要的數(shù)據(jù)中心都有安排人24小時值班,但實際上這些值班人的水平參差不齊,而且技術(shù)專家也不會值班,只有出了問題,有事情時才會介入,所以值班的人員可能更多的是一些操作人員。而且不少的數(shù)據(jù)中心都是在全國各地都有分中心,技術(shù)專家主要集中在一個地方,其它的數(shù)據(jù)中心分中心現(xiàn)場缺少專業(yè)技術(shù)人員,一旦數(shù)據(jù)中心出了緊急問題,技術(shù)專家無法得到最新的信息反饋,甚至出了故障都不知曉,這樣會導(dǎo)致業(yè)務(wù)故障時間比較久,現(xiàn)場操作人員必須得到后臺技術(shù)專家的明確指示才會進(jìn)行各種有針對性的恢復(fù)操作,而后臺技術(shù)專家又無法及時掌握數(shù)據(jù)中心所有的運行參數(shù),這導(dǎo)致故障處理效果并不好,甚至?xí)砀鼮閲?yán)重的二次故障。好在,現(xiàn)在手機(jī)、筆記本上網(wǎng)都非常方便,也提升了運維的執(zhí)行效率。數(shù)據(jù)中心可以將各種運行監(jiān)控參數(shù)發(fā)布到各種移動接收端,以便技術(shù)專家能實時掌握數(shù)據(jù)中心運行狀態(tài),隨時隨地移動運維,完成數(shù)據(jù)中心的全生命周期管理,極大地改善了運維的工作質(zhì)量。
數(shù)據(jù)中心運維正面臨著各種各樣的實際問題,隨著建設(shè)規(guī)模的不斷擴(kuò)大,系統(tǒng)越來越復(fù)雜,必須找到一些解決辦法,否則數(shù)據(jù)中心真的再難以運維下去。