在首次云端平臺(tái)使用者大會(huì)(Google Cloud Platform Global User Conference)上,谷歌的兩位領(lǐng)導(dǎo)者——數(shù)據(jù)中心的運(yùn)營(yíng)副總裁Joe Kava和安全隱私方面的優(yōu)秀工程師Niels Provos向與會(huì)者分享了谷歌在全球范圍內(nèi)設(shè)計(jì)、構(gòu)建、運(yùn)行和保護(hù)數(shù)據(jù)中心的實(shí)踐方式,其中包含一些令谷歌的數(shù)據(jù)中心獨(dú)一無(wú)二的秘訣,及其對(duì)于谷歌云端平臺(tái)用戶的意義。
安全性和數(shù)據(jù)保護(hù)
谷歌一直以來(lái)將重心放在數(shù)據(jù)的安全和保護(hù)上,這也是我們的關(guān)鍵設(shè)計(jì)準(zhǔn)則之一。在物理安全方面,我們以分層安全模型為特色,使用了如定制的電子訪問(wèn)卡、警報(bào)器、車輛進(jìn)出限制、圍欄架設(shè)、金屬探測(cè)器及生物識(shí)別技術(shù)等保障措施。數(shù)據(jù)中心的地板配備了激光束入侵探測(cè)器,并安裝了高清晰度的內(nèi)外監(jiān)視器,全天候檢測(cè)追蹤入侵行為。此外為以防萬(wàn)一,可隨時(shí)調(diào)用訪問(wèn)日志、活動(dòng)記錄以及監(jiān)控錄像。
同時(shí)數(shù)據(jù)中心還安排了經(jīng)驗(yàn)豐富的保安人員每日例行巡邏,他們已接受過(guò)背景調(diào)查與嚴(yán)格的培訓(xùn)(可以點(diǎn)擊查看數(shù)據(jù)中心的360度視頻)。越靠近數(shù)據(jù)中心,安全措施系數(shù)就越高,只有一條安全通道能進(jìn)入數(shù)據(jù)中心,通過(guò)安全徽章和生物識(shí)別技術(shù)來(lái)實(shí)現(xiàn)多重訪問(wèn)控制,只有特定職位的員工才有權(quán)進(jìn)入。在整個(gè)谷歌公司,只有不到1%的員工曾踏足此區(qū)域。
我們還采用了非常嚴(yán)格的點(diǎn)對(duì)點(diǎn)監(jiān)管鏈,用于儲(chǔ)存、追蹤全過(guò)程——從第一次HD輸入機(jī)器直至證實(shí)其已被銷毀或清除。同時(shí),我們采用了信息安全和物理安全雙管齊下的方式,由于數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳輸?shù)奶匦?,若未?jīng)授權(quán)可隨意訪問(wèn)的話就會(huì)非常危險(xiǎn)。有鑒于此,谷歌將數(shù)據(jù)傳輸過(guò)程中的信息保護(hù)擺在優(yōu)先位置上,用戶設(shè)備與谷歌間的數(shù)據(jù)傳輸通常都是利用HTTPS/TLS(安全傳輸層協(xié)議)來(lái)進(jìn)行加密輸送。谷歌是第一個(gè)默認(rèn)啟用HTTPS/TLS的主要云服務(wù)提供商。
谷歌自建硬件和監(jiān)測(cè)系統(tǒng)
谷歌的服務(wù)器不包括那些不必要且會(huì)產(chǎn)生漏洞的組件,比如顯卡、芯片組、外圍連接器。谷歌的生產(chǎn)服務(wù)器運(yùn)行著基于linux精簡(jiǎn)版和硬化版定制的操作系統(tǒng),且這些服務(wù)器和操作系統(tǒng)只為谷歌一家提供服務(wù)。服務(wù)器的資源是動(dòng)態(tài)分配的,允許靈活增長(zhǎng)與快速高效地適應(yīng),同時(shí)還能根據(jù)客戶的需求來(lái)添加或重新分配資源。
團(tuán)隊(duì)還必須在谷歌的基礎(chǔ)架構(gòu)狀態(tài)與功能上增加先進(jìn)的實(shí)時(shí)可視性功能。眾所周知,谷歌在數(shù)據(jù)方面極度用心。為了協(xié)助團(tuán)隊(duì),谷歌已為所有的功能區(qū)域配備了監(jiān)測(cè)與控制系統(tǒng),包括服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)系統(tǒng)、配電房、機(jī)械冷卻系統(tǒng)以及安全系統(tǒng)——我們?nèi)轿坏貙?duì)“從芯片到冷卻裝置”的性能和操作進(jìn)行監(jiān)測(cè)。
利用機(jī)器學(xué)習(xí)來(lái)優(yōu)化數(shù)據(jù)中心操作系統(tǒng)
為了努力實(shí)現(xiàn)這一目標(biāo),我們利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法來(lái)優(yōu)化數(shù)據(jù)中心的操作系統(tǒng)。正如想象的那樣,我們的數(shù)據(jù)中心內(nèi)部大而復(fù)雜,所有電氣、機(jī)械和控制系統(tǒng)協(xié)力只為提供最優(yōu)性能。對(duì)常人而言,由于系統(tǒng)之間的交互信息與可能的設(shè)置十分復(fù)雜,很難想象怎樣實(shí)時(shí)優(yōu)化數(shù)據(jù)中心;但對(duì)于電腦來(lái)講,運(yùn)算這些可能的情境并找到最佳設(shè)置簡(jiǎn)直小菜一碟。
過(guò)去幾年內(nèi),我們開發(fā)出了這套算法,并使用全世界谷歌網(wǎng)站數(shù)以億計(jì)的數(shù)據(jù)點(diǎn)對(duì)其進(jìn)行了訓(xùn)練。我們現(xiàn)在利用這個(gè)機(jī)器學(xué)習(xí)模型幫助數(shù)據(jù)可視化,以便運(yùn)營(yíng)團(tuán)隊(duì)為數(shù)據(jù)中心配置電力與冷卻裝置,以確保指定時(shí)間的性能達(dá)到最優(yōu)最高效(考慮到影響性能的自變量多達(dá)19個(gè)),幫助團(tuán)隊(duì)找出難以一眼發(fā)覺的不連續(xù)或者效率不高的數(shù)據(jù)點(diǎn)。
以可再生能源為動(dòng)力
在能源方面,我們致力于利用可再生能源來(lái)為基礎(chǔ)設(shè)施提供動(dòng)力,谷歌在可再生能源方面是全世界最大的私人投資者。截至目前,谷歌已經(jīng)在可再生能源的“能源采購(gòu)標(biāo)準(zhǔn)協(xié)議”上投入了超過(guò)20億美元,這些協(xié)議重要的原因在于:
谷歌計(jì)劃在未來(lái)10-20年間繼續(xù)投資購(gòu)買風(fēng)能和太陽(yáng)能; 這些風(fēng)電場(chǎng)和谷歌數(shù)據(jù)中心有著相同的電網(wǎng)系統(tǒng); 風(fēng)電場(chǎng)和數(shù)據(jù)中心共享電網(wǎng)系統(tǒng),為項(xiàng)目開發(fā)人員提供建立項(xiàng)目所需的財(cái)務(wù)保證,因此我們明白:除了可再生能源之外,不會(huì)再通過(guò)其他方式來(lái)發(fā)電。
冷卻方面,平均每12-18個(gè)月我們會(huì)對(duì)基本的冷卻技術(shù)進(jìn)行重新設(shè)計(jì)。通過(guò)這種方式,我們所開發(fā)的水冷系統(tǒng)在創(chuàng)新上占據(jù)領(lǐng)先地位,使用水源包括海水、工業(yè)大壩水、回收水及灰水(污染較輕的生活用水)、收集重用的雨水,并涉及了熱能儲(chǔ)存。此外我們還設(shè)計(jì)了不使用水冷系統(tǒng)的數(shù)據(jù)中心,這種系統(tǒng)100%依靠室外空氣自然冷卻。關(guān)鍵是:并沒(méi)有“一體適用”的解決方案,每個(gè)數(shù)據(jù)中心會(huì)根據(jù)特定的位置設(shè)計(jì)出適合自己的冷卻方案,以求能達(dá)到最高性能和最高效率。
數(shù)據(jù)中心由谷歌自行運(yùn)營(yíng),不通過(guò)第三方
設(shè)計(jì)與建立方面的行業(yè)規(guī)范削減了對(duì)用戶手冊(cè)和圖紙的需求,直通正確的解決方案,運(yùn)營(yíng)者無(wú)需憑借僥幸。一般來(lái)講,運(yùn)營(yíng)團(tuán)隊(duì)受雇于低價(jià)攬活的外包商,而不是業(yè)主本身,但在谷歌并非如此,我們有自己的雇員來(lái)管理、運(yùn)營(yíng)數(shù)據(jù)中心。在運(yùn)營(yíng)時(shí)有這樣的慣例:?jiǎn)栴}和錯(cuò)誤常在午夜出現(xiàn)——通常是周日的午夜,因?yàn)槟菚r(shí)沒(méi)人隨時(shí)待命處理問(wèn)題。
工程師+運(yùn)營(yíng)團(tuán)隊(duì)的組合
對(duì)于所雇的員工和他們運(yùn)營(yíng)數(shù)據(jù)中心的方式,我們采取了不同的態(tài)度:工程師和運(yùn)營(yíng)專家的背景各不相同,但卻有個(gè)共同點(diǎn)——他們都是系統(tǒng)思考者。團(tuán)隊(duì)的很多成員有關(guān)鍵業(yè)務(wù)方面的背景,比如美國(guó)海軍核潛艇項(xiàng)目,在這些項(xiàng)目中,任何錯(cuò)誤都會(huì)釀成災(zāi)難性后果,因此他們很懂系統(tǒng)的交互方式。此外,谷歌在所有數(shù)據(jù)中心園區(qū)還成立了區(qū)域站點(diǎn)團(tuán)隊(duì),由負(fù)責(zé)設(shè)計(jì)和施工的工程師及運(yùn)營(yíng)團(tuán)隊(duì)共同組建而成,這些綜合團(tuán)隊(duì)共同負(fù)責(zé)構(gòu)建、調(diào)試系統(tǒng)以及提供全天候運(yùn)營(yíng)服務(wù),從而賦予了我們對(duì)基礎(chǔ)架構(gòu)無(wú)與倫比的自治權(quán)。