數(shù)據(jù)中心運(yùn)維的發(fā)展原則有兩個(gè)方面:一個(gè)是盡量不去依賴人去管理,要知道數(shù)據(jù)中心里百分之八十的故障是人為故障,人參與程度越高的工作出錯(cuò)概率越高,反而機(jī)器永遠(yuǎn)都按照預(yù)定的程序去執(zhí)行,除非設(shè)備出了BUG,否則永遠(yuǎn)都不會(huì)出錯(cuò),當(dāng)然BUG也是人造的,所以往往一個(gè)數(shù)據(jù)中心自動(dòng)化運(yùn)維的水平越高,反而越安全,故障發(fā)生的概率更低;另一個(gè)是要盡量避免發(fā)生故障,而不是事后諸葛,“亡羊補(bǔ)牢,為之晚矣”,不要總?cè)プ鐾鲅蜓a(bǔ)牢的事情,要把可能預(yù)知的風(fēng)險(xiǎn)消除掉,避免故障的發(fā)生。故障發(fā)生后,迅速解決故障是一種能力,但不要過于依賴這個(gè),不能什么問題都要等到故障發(fā)生后才去解決,早早就應(yīng)該規(guī)避風(fēng)險(xiǎn)。“覆水難收”,故障發(fā)生后給數(shù)據(jù)中心帶來的負(fù)面影響,往往要花更多的精力去修復(fù),有時(shí)發(fā)生的故障是致命的,數(shù)據(jù)中心可能會(huì)從此一蹶不振,只能關(guān)門大吉了。任何一個(gè)數(shù)據(jù)中心運(yùn)維的工作,都要依照這兩個(gè)原則去發(fā)展,這樣才能不斷提升其數(shù)據(jù)中心運(yùn)維的水平。
數(shù)據(jù)中心運(yùn)維的水平高低也可以從兩個(gè)方面來看,一方面是運(yùn)維效率,另一個(gè)方面是規(guī)范建立機(jī)制。首先,在運(yùn)維的效率方面,從低到高要經(jīng)歷四個(gè)階段:一是全人工運(yùn)維。這種運(yùn)維的方式適用于早期數(shù)據(jù)中心規(guī)模不大或者業(yè)務(wù)流量不大的情況,這類數(shù)據(jù)中心系統(tǒng)復(fù)雜度不高,設(shè)備數(shù)量較少。日常的業(yè)務(wù)運(yùn)維操作,更多的是依靠手工逐臺(tái)登錄設(shè)備進(jìn)行操作,缺少必要的操作標(biāo)準(zhǔn)、流程機(jī)制。運(yùn)維的人員個(gè)人經(jīng)驗(yàn)非常重要,可繼承性不強(qiáng),數(shù)據(jù)中心要過度依賴個(gè)別的幾個(gè)運(yùn)維的技術(shù)大牛來維持,其它人員操作犯錯(cuò)概率會(huì)增高,同時(shí)工作效率底下;二是工具化的運(yùn)維。這種運(yùn)維的方式適用于較大規(guī)模的數(shù)據(jù)中心,運(yùn)維的人員開始使用批量化的操作工具,針對(duì)不同操作類型出現(xiàn)了不同的腳本程序,需要做設(shè)備配置變更時(shí),通過腳本程序統(tǒng)一執(zhí)行,提升操作效率。比如設(shè)備批量升級(jí),可以提前寫好腳本程序,然后到了指定時(shí)間,腳本程序自動(dòng)運(yùn)行,將服務(wù)器上的軟件程序下載到設(shè)備上,然后執(zhí)行升級(jí)命令,所有設(shè)備的執(zhí)行步驟都一樣,可以大大節(jié)省人力,以往人工升級(jí)每晚只能升級(jí)幾臺(tái)設(shè)備,通過腳本一個(gè)晚上就可以將整個(gè)數(shù)據(jù)中心的設(shè)備升級(jí)完畢。不過,每次操作需求都不同,需要不斷調(diào)整腳本工具,可程序化處理能力較弱,批量執(zhí)行還可能導(dǎo)致更大規(guī)模的問題出現(xiàn),此時(shí)仍需要人工監(jiān)督腳本執(zhí)行情況,發(fā)現(xiàn)腳本有問題及時(shí)調(diào)整,運(yùn)維效率并不高;三是平臺(tái)運(yùn)維。這種運(yùn)維對(duì)運(yùn)維效率和誤操作率有了更高要求,通過平臺(tái)承載標(biāo)準(zhǔn)、流程,進(jìn)而解放人力和提高質(zhì)量。平臺(tái)運(yùn)維對(duì)服務(wù)的變更動(dòng)作進(jìn)行了抽象,形成了操作方法、服務(wù)目錄環(huán)境、服務(wù)運(yùn)行方式等統(tǒng)一的標(biāo)準(zhǔn),通過平臺(tái)來約束操作流程;四是自運(yùn)維系統(tǒng)。這種運(yùn)維適用于更大規(guī)模的服務(wù)數(shù)量、更復(fù)雜的數(shù)據(jù)中心系統(tǒng),是當(dāng)前數(shù)據(jù)中心推崇的運(yùn)維方式,極大地解放人力。自運(yùn)維系統(tǒng)對(duì)服務(wù)變更進(jìn)行抽象,由調(diào)度系統(tǒng)根據(jù)資源使用情況,將服務(wù)調(diào)度、部署到合適的服務(wù)器上,自動(dòng)化完成與周邊各個(gè)運(yùn)維系統(tǒng)聯(lián)動(dòng),比如監(jiān)控系統(tǒng)、日志系統(tǒng)、備份系統(tǒng)等。自運(yùn)維的系統(tǒng)還具備發(fā)現(xiàn)故障,并自動(dòng)消除故障的能力。
另一方面是規(guī)范機(jī)制的建立。俗話說“沒有規(guī)矩,不成方圓”,數(shù)據(jù)中心里也要立規(guī)矩,制定各種規(guī)章制定,并有效地執(zhí)行下去,規(guī)范的建立同樣也要經(jīng)歷從低到高的四個(gè)階段:一是無規(guī)范機(jī)制,整個(gè)數(shù)據(jù)中心運(yùn)維的工作處于無序狀態(tài),工作效率低下,這在一些小型的數(shù)據(jù)中心或機(jī)房普遍存在,過多規(guī)范制度反而顯得有些累贅;二是建立規(guī)范人工約束,這個(gè)階段通過規(guī)范制度加強(qiáng)對(duì)人的管理,通過規(guī)范人的操作流程,從而減少人為出錯(cuò)的概率。數(shù)據(jù)中心制定了一系列操作規(guī)范,哪些不能做,哪些可以做,哪些人能做哪些事兒等等,運(yùn)維的人員要按照規(guī)范來執(zhí)行;三是完善規(guī)范,不斷對(duì)規(guī)范進(jìn)行改進(jìn),防止出現(xiàn)管理漏洞,運(yùn)維的工作開展遵從一系列規(guī)范制度,有理有據(jù)去做,提升數(shù)據(jù)中心的運(yùn)維效率,對(duì)運(yùn)維的人員獎(jiǎng)罰分明,依據(jù)就是這些之前制定好的規(guī)范制度;四是系統(tǒng)自動(dòng)約束,此時(shí)數(shù)據(jù)中心已經(jīng)完全采用自運(yùn)維的系統(tǒng)方式,人工參與極少,所以以往制定的一系列規(guī)范制度成為了廢紙,我們只要將標(biāo)準(zhǔn)的操作輸入給運(yùn)維的系統(tǒng)即可,系統(tǒng)可以自我調(diào)整,自動(dòng)運(yùn)行完成,保證不會(huì)出現(xiàn)不符合規(guī)范操作的情況。
數(shù)據(jù)中心建設(shè)的規(guī)模越來越大,采用人工方式已不現(xiàn)實(shí)。要將所有運(yùn)維的工作都能走向自動(dòng)化,減少人的重復(fù)工作,使我們的運(yùn)維交付更高效、更安全。數(shù)據(jù)中心運(yùn)維的技術(shù)發(fā)展宗旨就是將人從復(fù)雜枯燥的運(yùn)維工作中解脫出來。數(shù)據(jù)中心的所有運(yùn)維活動(dòng),均由人工處理變成系統(tǒng)自動(dòng)實(shí)現(xiàn)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net原創(chuàng),轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。