首先,數(shù)據(jù)中心要對每次需要保障的業(yè)務(wù)弄得清清楚楚,抓住痛點,解決痛點。如果是大型的節(jié)假日,這時考驗的是數(shù)據(jù)中心整體業(yè)務(wù)的穩(wěn)定性,尤其是節(jié)假日哪些應(yīng)用訪問量會增大,要提前做預(yù)案,根據(jù)往年積累的經(jīng)驗積極應(yīng)對。如果往年系統(tǒng)出現(xiàn)了這樣那樣的問題,一定在這次的服務(wù)保障之前消除掉隱患。如果是電商促銷,就要關(guān)注集中時間內(nèi)訪問用戶的數(shù)量,模擬大規(guī)模數(shù)量的訪問用戶,看系統(tǒng)是否可以承受,這時就要關(guān)注計算、帶寬這些資源是否足夠,可能不足的地方要及時補全。一個數(shù)據(jù)中心可能承載了數(shù)百個甚至上千各種應(yīng)用,要明確哪些是需要服務(wù)故障的,哪些是重要的,哪些是次要的,應(yīng)用的重要性要有分級。在不同的活動中,不同的應(yīng)用重要性是有變化的,要及時進行調(diào)整,將重要力量投入到關(guān)鍵節(jié)點的保障上來。
其次,數(shù)據(jù)中心的設(shè)計和運維的人員要坐到一起,共同討論保障事宜。業(yè)務(wù)運維的人要深入理解數(shù)據(jù)中心的系統(tǒng)架構(gòu),從全局的視角去對待服務(wù)保障工作。數(shù)據(jù)中心的規(guī)模和應(yīng)用有大有小,投入上必要有差異。如果一個數(shù)據(jù)中心僅有數(shù)十臺的服務(wù)器和小型網(wǎng)絡(luò)設(shè)備,沒有必要對整體服務(wù)保障大動干戈,準(zhǔn)備一些備用端口和設(shè)備,萬一關(guān)鍵時刻出了問題,及時恢復(fù)業(yè)務(wù)就可以了,不需要將過多的資源和精力投入到服務(wù)保障上來。數(shù)據(jù)中心做服務(wù)保障也要綜合考慮,資金和人力也是需要衡量的重要方便,要用最少的投入得到最好的效果。掌握整體架構(gòu),對服務(wù)保障非常重要,避免各種應(yīng)急方案在關(guān)鍵時刻失效,要盡可能將可能的突發(fā)情況考慮完全。數(shù)據(jù)中心要建立實時的監(jiān)控體系,建設(shè)服務(wù)依賴的降級系統(tǒng),建設(shè)具有冗余能力的架構(gòu)體系,從整體架構(gòu)層面做服務(wù)保障,這樣可以避免將精力投入到某個特定環(huán)節(jié)中,而忽略了整體,而且架構(gòu)層面一定具有冗余性,以便在出現(xiàn)突發(fā)情況時,有備份方案可選,將應(yīng)用切割到備用系統(tǒng)上來,避免出現(xiàn)應(yīng)用中斷的情況。如果在服務(wù)保障期間,仍出現(xiàn)了較嚴(yán)重的應(yīng)用中斷事件,那服務(wù)保障工作就是徹底的失敗。
第三,要豐富服務(wù)保障工具,現(xiàn)在的數(shù)據(jù)中心應(yīng)用業(yè)務(wù)越來越復(fù)雜,簡單地靠PING、TRACERT等命令有時也很難判斷問題,尤其是應(yīng)用層面的問題,所以有必要引入一些排查和監(jiān)控的工具。正所謂“巧婦難為無米之炊”,工欲做其事,必先利其器,手上需要有一些獨門“暗器”,在關(guān)鍵時候能發(fā)揮效用?,F(xiàn)在工具已經(jīng)從純手工,經(jīng)歷工具化、系統(tǒng)化,直至容器化和彈性調(diào)度上,什么Scribe、Wtool等免費監(jiān)控的管理工具都可以派上用場,要善于使用這些工具,通過這些工具對數(shù)據(jù)中心運行各種數(shù)據(jù)參數(shù)進行分析,服務(wù)保障才更有效。
第四,要關(guān)注新技術(shù)。每一次的服務(wù)保障都是發(fā)現(xiàn)數(shù)據(jù)中心隱患和弱點的最好時機,有時甚至要在服務(wù)保障之前做演練,以便能提前暴露隱患,及時進行糾正。當(dāng)遇到一些困難時,要看是否有些新技術(shù)可以很好解決?,F(xiàn)在數(shù)據(jù)中心的技術(shù)更新?lián)Q代很快,這些新技術(shù)都是應(yīng)對數(shù)據(jù)中心發(fā)展過程中遇到的新情況,當(dāng)自己的數(shù)據(jù)中心也遇到這些問題時不妨考慮引入一些新技術(shù)解決問題。數(shù)據(jù)中心是當(dāng)今信息技術(shù)發(fā)展的寫照,不能墨守陳規(guī),需改變的時候就是要做出改變。引進新的技術(shù),不僅讓自己的數(shù)據(jù)中心有耳目一新的感覺,也可以提升數(shù)據(jù)中心的應(yīng)用處理能力。當(dāng)然,引入這些新技術(shù)時也要保留謹慎,特別新的不成熟的技術(shù)要充分考慮引入風(fēng)險,是否適得其反。在引入新技術(shù)的道路上,不能一下子步子邁得太大,要小碎步地快速向前跑,最終利用新技術(shù)的優(yōu)勢解決數(shù)據(jù)中心面臨的各種問題。
最后,數(shù)據(jù)中心要做服務(wù)保障需要投入大量人力,有時單靠數(shù)據(jù)中心自己有些力不從心,畢竟有很多系統(tǒng)和設(shè)備都不是數(shù)據(jù)中心運維的人員所能掌握的,這時可以按照事情的重要性,請一些專門提供第三方服務(wù)的專業(yè)公司人員來數(shù)據(jù)中心做服務(wù)保障。這些服務(wù)公司有著豐富的服務(wù)保障經(jīng)驗,將任務(wù)交由這些公司來做,花錢省心,而且萬一出了什么差錯,還可以獲得一些補償。數(shù)據(jù)中心還可以將系統(tǒng)或設(shè)備廠商的人請來做服務(wù)保障,數(shù)據(jù)中心每年采購大量的設(shè)備,有時還會購買原廠人員服務(wù),這些在服務(wù)保障時都可以用上。所做這些雖然投入的資金和人力會多一些,但在應(yīng)對突發(fā)事情的處理能力上將大為提高。數(shù)據(jù)中心應(yīng)該將各種內(nèi)外部資源都充分利用上,做好服務(wù)保障工作。
以上介紹的是數(shù)據(jù)中心服務(wù)保障的五個原則,依據(jù)這五個原則指導(dǎo)服務(wù)保障的實際工作,將大大提升服務(wù)保障的質(zhì)量。數(shù)據(jù)中心上的應(yīng)用在特定時段特別重要,關(guān)鍵時刻不能掉鏈子,必須依仗這五個原則,切實做好服務(wù)保障工作。