數(shù)據(jù)中心租戶在簽署數(shù)據(jù)中心托管合同后,如果感到后悔和遺憾那將是很痛苦的。因?yàn)楣芾聿簧频臄?shù)據(jù)中心將遭遇隨機(jī)停機(jī)或中斷,這會(huì)影響租戶的日常業(yè)務(wù)交互運(yùn)行,影響其在客戶中的聲譽(yù),同時(shí)有可能損壞租戶昂貴的設(shè)備,并耗費(fèi)租戶的更多成本。而移動(dòng)數(shù)據(jù)中心是勞動(dòng)密集型的類型,因此也是不穩(wěn)定的和昂貴的。
如何在混亂中拯救自己的業(yè)務(wù),并作出正確的選擇,成為用戶頭疼的問題。但如何進(jìn)行選擇呢?在每個(gè)數(shù)據(jù)中心的設(shè)施中,都聲稱擁有一個(gè)專家團(tuán)隊(duì),具有廣泛的安全措施,一致性的可用性,高密度的計(jì)算能力,以及防范自然災(zāi)害的能力。這似乎是不可能區(qū)分?jǐn)?shù)據(jù)中心的優(yōu)劣。
因此,在企業(yè)作出選擇之前,應(yīng)該考慮三個(gè)主要類別的標(biāo)準(zhǔn):運(yùn)營(yíng)管理,設(shè)備和基礎(chǔ)設(shè)施,以及商業(yè)信譽(yù)。每個(gè)類別都列出問題,將會(huì)挖掘出讓人遺憾重要的細(xì)節(jié),區(qū)分?jǐn)?shù)據(jù)中心的不同,可以幫助企業(yè)的業(yè)務(wù)蓬勃發(fā)展。
一 運(yùn)營(yíng)管理
(1)難道數(shù)據(jù)中心可以隱藏在可以顯示更好的歷史,或避免違反服務(wù)級(jí)別協(xié)議(SLA)而遭到經(jīng)濟(jì)處罰的維護(hù)窗口背后嗎?
了解數(shù)據(jù)中心如何以及為什么使用維護(hù)窗口,可以經(jīng)常發(fā)現(xiàn)潛在的問題、關(guān)鍵的系統(tǒng)設(shè)計(jì)、容量管理,以及運(yùn)營(yíng)能力。為了他們的可用性顯得更加一致或者避免SLA的處罰,一些數(shù)據(jù)中心過度使用或操縱其維護(hù)窗口。而停機(jī)時(shí)間一般是最終用戶的停機(jī)時(shí)間,無論是計(jì)劃或計(jì)劃外的維護(hù)窗口。在此,可以回顧過去五年的常規(guī)計(jì)劃,以及緊急或計(jì)劃外維護(hù)窗口的報(bào)告。使用什么類型的維護(hù)窗口?可以了解一個(gè)或兩個(gè)(如果冗余電路或2N冗余)的電路的情況,以確保服務(wù)級(jí)別協(xié)議不會(huì)受到影響。另外,維護(hù)窗口為客戶停機(jī)的頻率是多少?是否有任何導(dǎo)致客戶計(jì)劃外停機(jī)的維護(hù)窗口?維護(hù)窗口是否有排除數(shù)據(jù)中心的持續(xù)關(guān)鍵系統(tǒng)可用性和正常運(yùn)行時(shí)間的歷史?對(duì)這些問題的回答將有助于揭示企業(yè)數(shù)據(jù)中心的維護(hù)窗口程序,以及它們?nèi)绾斡绊懹脩魳I(yè)務(wù)的內(nèi)幕。
(2)主要專長(zhǎng)是數(shù)據(jù)中心托管?
要注意的是,除了提供主機(jī)托管服務(wù)以外,數(shù)據(jù)中心提供商還提供了IT管理服務(wù)和通信服務(wù)。起初,數(shù)據(jù)中心供應(yīng)商提供多種服務(wù)聽起來很方便,但是當(dāng)數(shù)據(jù)中心試圖將一切提供給大家時(shí),他們所提供給客戶的服務(wù)質(zhì)量會(huì)受到影響。數(shù)據(jù)中心托管提供商其主要重點(diǎn)是提供數(shù)據(jù)中心基礎(chǔ)設(shè)施服務(wù)工作,為客戶提供高質(zhì)量和便利性的服務(wù)。數(shù)據(jù)中心提供商一般不提供自己的競(jìng)爭(zhēng)性服務(wù),以便吸引最優(yōu)秀的服務(wù)供應(yīng)商入駐,并與這些公司共同在一個(gè)數(shù)據(jù)中心提供服務(wù),其結(jié)果成為一種購(gòu)物商場(chǎng),其中用戶可以在多個(gè)供應(yīng)商進(jìn)行選擇,可以獲得他們所需要的有競(jìng)爭(zhēng)力的價(jià)格。
(3)數(shù)據(jù)中心如何減少人為錯(cuò)誤?
人為錯(cuò)誤仍然是影響數(shù)據(jù)中心連續(xù)正常運(yùn)行的最主要的因素。相反,人們普遍認(rèn)為人為錯(cuò)誤是不可避免的,但可以通過規(guī)劃和設(shè)計(jì)來有所緩解,而有效減少或消除人為錯(cuò)誤的唯一方法是正確的管理、正確運(yùn)營(yíng)策略,以及良好操作心態(tài)的組合。培養(yǎng)專注于完成任務(wù)的工作人員,并將這種做法推廣到數(shù)據(jù)中心的整個(gè)組織,可以創(chuàng)造一個(gè)有利于持續(xù)運(yùn)行環(huán)境。在任何數(shù)據(jù)中心的運(yùn)作過程中,如果外包的某一部分很難操作,可以詢問是否將這個(gè)操作和維護(hù)活動(dòng)外包給供應(yīng)商或第三方。如果是這樣的話,其所有權(quán)和責(zé)任將會(huì)喪失,服務(wù)質(zhì)量也將受到影響。數(shù)據(jù)中心運(yùn)營(yíng)團(tuán)隊(duì)?wèi)?yīng)該自己處理解決,而不能將其外包,但是如果自己解決的話,必須要求自己的團(tuán)隊(duì)有一定的技能、經(jīng)驗(yàn)和資歷。因此,團(tuán)隊(duì)的每個(gè)成員都應(yīng)該不斷地接受培訓(xùn),特別是減少或消除錯(cuò)誤,并確保在服務(wù)交付的過程和程序具有更高水平。另外,還應(yīng)該具備用于文檔的所有操作過程控制和使用、驗(yàn)證、修訂和批準(zhǔn)的業(yè)務(wù)策略和措施。這些程序應(yīng)當(dāng)詳細(xì)說明一切,包括清潔標(biāo)準(zhǔn)、變更管理和控制、風(fēng)險(xiǎn)緩解、服務(wù)請(qǐng)求和問題的通知,上報(bào)和解決等。
在了解應(yīng)提供數(shù)據(jù)中心的運(yùn)營(yíng)策略和心態(tài)之后,可以簡(jiǎn)化運(yùn)行團(tuán)隊(duì)的判斷措施,以減少人為錯(cuò)誤。
二 設(shè)備和基礎(chǔ)設(shè)施
(1)數(shù)據(jù)中心是否具有維護(hù)和生命周期策略?
應(yīng)該做好設(shè)備的管理工作。詢問數(shù)據(jù)中心設(shè)備是如何選擇、委托、鑒定、測(cè)試和維護(hù)?是否建立了其生命周期戰(zhàn)略?是否具備預(yù)防和預(yù)測(cè)性維護(hù)策略?他們是否能夠結(jié)合,進(jìn)行有意義的測(cè)試和趨勢(shì)分析?所有的設(shè)備和數(shù)據(jù)中心是否作為一個(gè)整體進(jìn)行檢查?
(2)是否擁有有效管理數(shù)據(jù)中心日常操作的DCIM?
數(shù)據(jù)中心是否有一個(gè)全面的數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)系統(tǒng),可以連續(xù)準(zhǔn)確地監(jiān)測(cè)和收集所有關(guān)鍵和重要系統(tǒng)中的數(shù)據(jù)?關(guān)鍵系統(tǒng)基礎(chǔ)設(shè)施是如何規(guī)劃和管理的?全面的DCIM對(duì)于一個(gè)高度可靠的數(shù)據(jù)中心來說至關(guān)重要,因?yàn)槠淇梢圆粩嗟乇O(jiān)視所有關(guān)鍵系統(tǒng)。它允許運(yùn)營(yíng)團(tuán)隊(duì)意識(shí)到不斷變化的條件,以及具體參數(shù)趨勢(shì),以及積極的管理能力。通過采用一個(gè)有效的DCIM,運(yùn)營(yíng)商可以做出明智的決策,以保持?jǐn)?shù)據(jù)中心的平穩(wěn)和持續(xù)運(yùn)行。配備多個(gè)DCIM可以了解數(shù)據(jù)中心的變化,但每個(gè)DCIM都應(yīng)該有幾個(gè)主要功能。DCIM應(yīng)該監(jiān)控和管理數(shù)據(jù)中心各個(gè)組件和系統(tǒng)容量。它應(yīng)該有閾值報(bào)警和自動(dòng)報(bào)警、自動(dòng)升級(jí)、儀表板視圖、集成面板日程管理和預(yù)測(cè)性維護(hù)和趨勢(shì)分析的功能,并應(yīng)該實(shí)時(shí)顯示能源使用效率(PUE),分支回路電源的使用,以及交付的溫濕度測(cè)量。因此,運(yùn)營(yíng)團(tuán)隊(duì)需要一個(gè)提供這些重要的數(shù)據(jù)點(diǎn)和功能的DCIM。
(3)當(dāng)前使用的機(jī)械和電氣系統(tǒng)的容量如何?
而在數(shù)據(jù)中心中,單個(gè)組件和系統(tǒng)的容量有時(shí)不能被有效地測(cè)量或管理。一些數(shù)據(jù)中心會(huì)消耗他們的冗余能力,當(dāng)設(shè)備可能中斷或連鎖故障時(shí),卻無法使用冗余或故障轉(zhuǎn)移。數(shù)據(jù)中心運(yùn)營(yíng)團(tuán)隊(duì)需要了解在關(guān)鍵的電氣和冷卻系統(tǒng)的所有能力組件上的負(fù)載,熟悉數(shù)據(jù)中心的配電系統(tǒng)和機(jī)械(冷卻)的配電系統(tǒng),并有效管理這些系統(tǒng),了解為客戶分配冷卻和電力的政策和流程是什么。如果數(shù)據(jù)中心的負(fù)載已經(jīng)超過了在不間斷供電(UPS)系統(tǒng)90%的容量,數(shù)據(jù)中心將沒有足夠的能力提供給用戶業(yè)務(wù),并存在連鎖故障的風(fēng)險(xiǎn)。因此,在預(yù)選擇過程中探索數(shù)據(jù)中心的容量管理和當(dāng)前可用的能力,避免在遷移或移動(dòng)業(yè)務(wù)時(shí),數(shù)據(jù)中心供應(yīng)商不能滿足用戶業(yè)務(wù)的增長(zhǎng)需求的風(fēng)驗(yàn)。
(4)數(shù)據(jù)中心的位置是否受到自然災(zāi)害的威脅?數(shù)據(jù)中心采取了哪些措施以減輕災(zāi)害的影響?
雖然并沒有數(shù)據(jù)中心不受自然災(zāi)害的影響,但通過選址可以得到緩解或消除某些風(fēng)險(xiǎn)。通常人們避免將數(shù)據(jù)中心全都共置在一個(gè)地區(qū),或者是周期性地暴露于自然災(zāi)害的地區(qū),即使該地是企業(yè)便于管理和經(jīng)營(yíng)的地理位置。例如,美國(guó)中西部地區(qū)的數(shù)據(jù)中心就很容易遭受龍卷風(fēng)的襲擊,而沿海的大多數(shù)數(shù)據(jù)中心易受颶風(fēng)、地震和洪水的襲擾。如果有這個(gè)可能,這些數(shù)據(jù)中心就會(huì)有一定的遭受地震概率,那么這些數(shù)據(jù)中心是否已經(jīng)制定一些應(yīng)對(duì)措施?那些位于平原的數(shù)據(jù)中心是否能應(yīng)對(duì)100到500年一遇的洪水?這些數(shù)據(jù)中心的位置是在美國(guó)聯(lián)邦應(yīng)急管理局預(yù)測(cè)最大洪水的水位之上嗎?數(shù)據(jù)中心提供商是否采取了應(yīng)對(duì)所有自然災(zāi)害的預(yù)防措施?以及是否具備保持?jǐn)?shù)據(jù)中心正常運(yùn)行時(shí)間的策略和措施?
三 商業(yè)信譽(yù)
(1)有沒有一種方法為客戶實(shí)時(shí)查看持續(xù)服務(wù)水平和/或服務(wù)級(jí)別協(xié)議(SLA)?
通常情況下,數(shù)據(jù)中心提供商為客戶提供一定水平的服務(wù)。一般要求數(shù)據(jù)中心的方法報(bào)告遵守服務(wù)級(jí)別協(xié)議(SLA)。要求數(shù)據(jù)中心提供商提供有透明度和可視性的服務(wù)的參數(shù)。這對(duì)于實(shí)現(xiàn)約定的服務(wù)水平應(yīng)該是一個(gè)必要條件。
(2)數(shù)據(jù)中心獲得了任何認(rèn)證嗎?
而那些獲得許多認(rèn)證證書的數(shù)據(jù)中心都會(huì)有自己的優(yōu)點(diǎn)和一些缺點(diǎn),但他們?nèi)匀痪哂幸恍┮饬x的,以幫助數(shù)據(jù)中心運(yùn)營(yíng)商感受到設(shè)施和服務(wù)的重要性。人們通常會(huì)詢問數(shù)據(jù)中心是否通過認(rèn)證審核,并定期要求查看認(rèn)證證明以及保密協(xié)議下的審計(jì)準(zhǔn)則。而這些提供的服務(wù)的質(zhì)量、可靠性和安全性分析的信息是非常寶貴的
(3)數(shù)據(jù)中心和供應(yīng)商的財(cái)政健全狀況和承諾如何?
運(yùn)行數(shù)據(jù)中心的成本是很昂貴的。數(shù)據(jù)中心提供商要確保該數(shù)據(jù)中心設(shè)施有良好的資金支持,并不能僅僅依靠幾個(gè)大租戶。這些租戶隨時(shí)都可以中止合同,并導(dǎo)致數(shù)據(jù)中心關(guān)閉或提供商至少在成本上作出削減,這將影響到服務(wù)交付的質(zhì)量。因此,需要審查數(shù)據(jù)中心供應(yīng)商的財(cái)務(wù)報(bào)告,了解當(dāng)前或未來的商業(yè)計(jì)劃,分析托管提供商租賃或自己的物理結(jié)構(gòu)、建筑和房地產(chǎn)的情況,以及是否數(shù)據(jù)中心提供商是否有出賣自己的數(shù)據(jù)中心的計(jì)劃?如果數(shù)據(jù)中心提供商的資產(chǎn)負(fù)債表、損益表或未來的努力顯得可疑的話,那么就應(yīng)該早些應(yīng)對(duì)和打算。
(4)數(shù)據(jù)中心提供商目前提供的100%連續(xù)關(guān)鍵系統(tǒng)的可用性和正常運(yùn)行時(shí)間是多少?
數(shù)據(jù)中心的可用性和正常運(yùn)行時(shí)間不會(huì)僅僅基于關(guān)鍵系統(tǒng)設(shè)計(jì)和冗余設(shè)施。數(shù)據(jù)中心的設(shè)計(jì)固然很重要,但它不能防止人為錯(cuò)誤和管理不善。重點(diǎn)關(guān)注的是數(shù)據(jù)中心的設(shè)計(jì)、管理和運(yùn)營(yíng)的結(jié)果。目前數(shù)據(jù)中心供應(yīng)商提供的100%電氣和機(jī)械(冷卻)的關(guān)鍵系統(tǒng)的可用性時(shí)間長(zhǎng)度是多少?而數(shù)據(jù)中心連續(xù)關(guān)鍵系統(tǒng)的可用性和正常運(yùn)行時(shí)間,對(duì)此數(shù)據(jù)中心提供商的定義有所不同,還要了解在其正常運(yùn)行時(shí)間的包括或排除維修窗口歷史。在數(shù)據(jù)中心的運(yùn)營(yíng)過程中,有哪些設(shè)備經(jīng)歷了任何計(jì)劃或計(jì)劃外停機(jī)事件?如果有任何意外停機(jī)事件,請(qǐng)?jiān)儐柨蛻羰欠癖煌ㄖ?,以及是否提供了一個(gè)確定停機(jī)事件根本原因的詳細(xì)和準(zhǔn)確的報(bào)告。還應(yīng)提供解決方案在行動(dòng)報(bào)告和未來的減災(zāi)計(jì)劃的細(xì)節(jié)。還要了解數(shù)據(jù)中心的連續(xù)關(guān)鍵系統(tǒng)的正常運(yùn)行時(shí)間記錄的信息,以了解用戶的數(shù)據(jù)中心潛在合作伙伴的重要信息,結(jié)果將不言自明。
結(jié)語(yǔ)
解決了數(shù)據(jù)中心在運(yùn)營(yíng)、管理、設(shè)備、基礎(chǔ)設(shè)施,以及商業(yè)信譽(yù)方面的問題,這樣數(shù)據(jù)中心將是一個(gè)有益的業(yè)務(wù)伙伴。當(dāng)一個(gè)數(shù)據(jù)中心可以安全可靠地完成工作時(shí),企業(yè)的數(shù)據(jù)和應(yīng)用程序?qū)⒏影踩?,并且比以往任何時(shí)候都更加容易獲得用戶信任。一旦相信已經(jīng)找到了一個(gè)可以提供高可靠性,降低風(fēng)險(xiǎn),并提供持續(xù)正常運(yùn)行時(shí)間的優(yōu)質(zhì)數(shù)據(jù)中心時(shí),那么就可以放心與數(shù)據(jù)中心提供商在合同上簽字了。