關(guān)于數(shù)據(jù)中心,維基百科給出的定義是“數(shù)據(jù)中心是一整套復(fù)雜的設(shè)施。它不僅僅包括計算機系統(tǒng)和其它與之配套的設(shè)備,還包含冗余的數(shù)據(jù)通信連接、環(huán)境控制設(shè)備、監(jiān)控設(shè)備以及各種安全裝置”。這個定義還不夠全面,幾乎沒有哪個定義能夠?qū)?shù)據(jù)中心概括清楚,因為數(shù)據(jù)中心實在是太復(fù)雜了,并非用幾個詞語或者幾句話就能概括清楚。當然,并不是一開始數(shù)據(jù)中心就很復(fù)雜,在最開始我們甚至可以將擁有幾臺PC的機房也可以叫做數(shù)據(jù)中心,但數(shù)據(jù)中心規(guī)模和技術(shù)都發(fā)展太快,復(fù)雜性呈幾何性增長,我們討論數(shù)據(jù)中心的復(fù)雜性都是基于當前現(xiàn)狀來討論的。首先,數(shù)據(jù)中心規(guī)模增長迅速,原來占地幾千平米的大型數(shù)據(jù)中心,放到現(xiàn)在也就屬于中小型數(shù)據(jù)中心,現(xiàn)在的數(shù)據(jù)中心動輒10萬服務(wù)器,要將這些服務(wù)器都放滿就得多大的建筑空間,這還不包括網(wǎng)絡(luò)、通風(fēng)和制冷等其它不可缺少的系統(tǒng)。一旦規(guī)模上來,所有的系統(tǒng)都需要適配,這個復(fù)雜不是簡單地累加,而是幾何倍數(shù)的增長。比如建造大樓,建設(shè)一座50層的大樓和120層的大樓成本可不是增長兩倍的關(guān)系,假如建設(shè)50層大樓,平均下來3000元一平,10萬平米就是3億。120層的話,造價應(yīng)該是50層樓的10倍,3萬元一平,如果是30萬平方米,那就是90億,整整差了87億。其次,數(shù)據(jù)中心是一個多功能的建筑物,并不僅僅是一些服務(wù)器的集合,要將這些服務(wù)器互聯(lián)互通起來,并且讓運行的應(yīng)用軟件平穩(wěn)運行,需要做大量系統(tǒng)設(shè)計工作,每個設(shè)備里跑的每一條指令都有其特定的意義。我們知道僅僅以太網(wǎng)的RFC就有八千多篇了,沒有人能將所有網(wǎng)絡(luò)協(xié)議都搞懂,但卻要在數(shù)據(jù)中心里部署很多網(wǎng)絡(luò)協(xié)議,復(fù)雜度可想而知。登錄到任意一臺網(wǎng)絡(luò)設(shè)備,都能看出至少上百行的網(wǎng)絡(luò)配置,多的有上萬行,這里的每一條配置指令都是為整個數(shù)據(jù)中心運行服務(wù)的,不可缺少,任何一個局部微小的操作都可能導(dǎo)致全局業(yè)務(wù)受損,為何要建設(shè)自動化運行的數(shù)據(jù)中心,其實有一個重要的原因就是靠人的經(jīng)驗去管理數(shù)據(jù)中心已經(jīng)不可能了,只能靠機器自動管理。第三,新技術(shù)演進太快,云計算也不過才十年之久,就已經(jīng)遍地開花了,大數(shù)據(jù)、人工智能甚至區(qū)塊鏈都來了,這些技術(shù)的寄托都是在海量數(shù)據(jù)上,哪里有海量數(shù)據(jù),就是數(shù)據(jù)中心。還有5G、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等等,哪個能離開數(shù)據(jù)中心?數(shù)據(jù)中心真是一專多能,海納百川,無所不能,這些應(yīng)用都給數(shù)據(jù)中心提出了新的挑戰(zhàn),數(shù)據(jù)中心的基礎(chǔ)設(shè)施要能滿足這些應(yīng)用,只能不斷變化調(diào)整,系統(tǒng)愈發(fā)復(fù)雜。第四,人們對數(shù)據(jù)中心要求越來越高,現(xiàn)在的數(shù)據(jù)中心全年都不能中斷,每中斷一分鐘都會影響業(yè)務(wù),因為很多互聯(lián)網(wǎng)業(yè)務(wù)是24小時的都有人訪問,前幾天阿里云中斷一個小時,全網(wǎng)一片嘩然,阿里云也及時坦誠不公地進行了道歉。這種事情再一再二可以,不能再三再四了,反復(fù)多次的故障很容易導(dǎo)致大量用戶流失,最終只能關(guān)門大吉,所以數(shù)據(jù)中心提供持續(xù)無中斷的能力看得比命都重要,如此必然要在數(shù)據(jù)中心的各個系統(tǒng)中做冗余備份設(shè)計。冗余備份設(shè)計給數(shù)據(jù)中心帶來的就是增加復(fù)雜性,冗余做的越多,復(fù)雜性越高,看似安全,實則危險重重。過于復(fù)雜的系統(tǒng)運行起來不僅效率低,甚至在故障出現(xiàn)時,根本無法快速準確定位,所以要在冗余和復(fù)雜性之間做取舍,選擇上做好平衡。
所以,數(shù)據(jù)中心不僅包含很多系統(tǒng),每個系統(tǒng)還都很復(fù)雜,越來越復(fù)雜,真是“貧窮限制了想象力”。現(xiàn)在哪個大型數(shù)據(jù)中心不是要靠幾十人的運維團隊才能支撐,這是一項龐大的費用支出,而且還并不能保證支持好,數(shù)據(jù)中心涉及那么多學(xué)科技術(shù),一個人完全掌握一項都不得了,怎么可能都掌握到。數(shù)據(jù)中心每天要疲于處理各種各樣的問題:應(yīng)用需求、擴容、變更、升級等等,復(fù)雜性增加了這里的每一項工作,要想一點錯不出很困難,這也就不難想象一個數(shù)據(jù)中心百分之八十的故障都來自人為。這么復(fù)雜的系統(tǒng),沒有誰能夠有百分之百的把握操作能達到預(yù)期效果,不出意外。如果我們再一味這樣,將數(shù)據(jù)中心按如此的方式,不斷建造下去,數(shù)據(jù)中心復(fù)雜性遲早會達到人們無法想象,無法管控的階段,讓數(shù)據(jù)中心陷入無序,這樣再好的技術(shù)也是白搭。數(shù)據(jù)中心復(fù)雜性已經(jīng)引起了更多人的關(guān)注,很多專家和學(xué)者也在出謀劃策,給出了一些超融合解決方案,試圖減輕數(shù)據(jù)中心負擔?,F(xiàn)在的數(shù)據(jù)中心必須做減法,要化繁而簡,不能再去一味追求規(guī)模,新技術(shù)的引入也不能增加系統(tǒng)復(fù)雜性,控制好數(shù)據(jù)中心復(fù)雜度,以免失控。