如今,許多關(guān)鍵行業(yè)在發(fā)展和運(yùn)營過程中投入了大量的時(shí)間和資源進(jìn)行培訓(xùn)和教育,如核工業(yè),軍事和民用航空,甚至是司機(jī),而數(shù)據(jù)中心行業(yè)卻沒有這么多的時(shí)間和資源進(jìn)行培訓(xùn)。
TiePoint-BKM工程設(shè)備公司運(yùn)營解決方案總監(jiān)David Boston表示,三分之二的數(shù)據(jù)中心業(yè)務(wù)中斷與其運(yùn)營流程有關(guān),而不是基礎(chǔ)設(shè)施系統(tǒng)。他說,"大多數(shù)人都意識(shí)到流程導(dǎo)致了大部分的停機(jī)時(shí)間,但很少有人主動(dòng)全面解決這些問題。這對(duì)我們的行業(yè)來說有點(diǎn)獨(dú)特。" Boston計(jì)劃在7月12日在芝加哥藝術(shù)學(xué)院的數(shù)據(jù)中心世界會(huì)議上闡述防止數(shù)據(jù)中心中斷的策略。
他建議,數(shù)據(jù)中心管理層經(jīng)常被迫更換老化的基礎(chǔ)設(shè)施系統(tǒng)和組件,或引起重復(fù)問題的系統(tǒng),并且習(xí)慣于增加系統(tǒng)容量以適應(yīng)負(fù)載增長。在基礎(chǔ)設(shè)施方面,冷卻系統(tǒng)中的機(jī)械故障是發(fā)生最多的故障,但電氣系統(tǒng)故障卻導(dǎo)致更多的停機(jī)事件,因?yàn)樵谶@么短的時(shí)間很難作出迅速的反應(yīng)。
他說,"這些努力都需要得到外界的工程支持,所以管理所需要的時(shí)間通常只限于項(xiàng)目的確定和監(jiān)督。"雖然開發(fā)過程與數(shù)據(jù)中心中斷的最常見的原因可能是更加費(fèi)時(shí)的管理,但確實(shí)需要花費(fèi)大量的時(shí)間。以下是Boston推薦的三大問題和最佳實(shí)踐:
1. 設(shè)施的工作人員數(shù)量和輪班與目標(biāo)的關(guān)鍵操作正常運(yùn)行時(shí)間未能匹配。
最佳實(shí)踐:量化高級(jí)IT管理人員的正常運(yùn)行時(shí)間目標(biāo),確保人員匹配。Boston建議每班輪班兩人,其他人員負(fù)責(zé)培訓(xùn)和程序項(xiàng)目。如果需要最大的正常運(yùn)行時(shí)間,則只能在偶然的停機(jī)事件可接受的情況下才使用全天值班。
2.沒有具體的培訓(xùn)計(jì)劃,包括設(shè)施開始運(yùn)營前的專業(yè)練習(xí)時(shí)間。
最佳實(shí)踐:指派一個(gè)團(tuán)隊(duì)成員作為培訓(xùn)項(xiàng)目的管理人員,并及時(shí)協(xié)調(diào)所有團(tuán)隊(duì)成員的每月應(yīng)急反應(yīng)培訓(xùn)。通過實(shí)踐操作來輪換每個(gè)團(tuán)隊(duì)成員,在維護(hù)活動(dòng)之前隔離基礎(chǔ)架構(gòu)系統(tǒng),并在預(yù)防性維護(hù)日歷上標(biāo)注活動(dòng),將系統(tǒng)恢復(fù)到服務(wù)狀態(tài)。
3.不了解具體程序不足。
最佳實(shí)踐:指派一個(gè)團(tuán)隊(duì)成員作為程序的所有者,隨時(shí)隨地開發(fā)(或與顧問合作開發(fā))幾乎每個(gè)關(guān)鍵設(shè)施所需的100到200個(gè)關(guān)鍵程序。每一個(gè)都確認(rèn)其技術(shù)準(zhǔn)確性和驗(yàn)證,所有的程序都要讓團(tuán)隊(duì)中最不知情的人都清楚地了解。
Boston評(píng)論道:"我一直懷疑,許多公司起初都不愿意花費(fèi)時(shí)間實(shí)施上述方案。
組織絕對(duì)應(yīng)該在關(guān)鍵業(yè)務(wù)方面實(shí)施這些流程,而這些流程是對(duì)組織的收入或信譽(yù)造成負(fù)面影響的流程。然而,對(duì)于非關(guān)鍵業(yè)務(wù),他建議可以采取快速恢復(fù)的方法。
原文來源:http://www.datacenterknowledge.com/archives/2017/06/05/most-data-center-outages-arent-caused-by-tech-failure/