在真正的數(shù)據(jù)中心出現(xiàn)之前,服務(wù)器就已經(jīng)安裝在19英寸機(jī)架中。數(shù)據(jù)中心建筑的空氣冷卻技術(shù)也發(fā)展到很高的水平,數(shù)據(jù)中心的配電也是一項(xiàng)非常成熟的技術(shù)。而在過去的幾年,數(shù)據(jù)中心技術(shù)只有一些增量的改變。
考慮到這一切,人們可能會(huì)認(rèn)為數(shù)據(jù)中心硬件的設(shè)計(jì)已經(jīng)很標(biāo)準(zhǔn),其未來的變化只是一些調(diào)整。不過這種想法是錯(cuò)誤的。數(shù)據(jù)中心機(jī)架、冷卻、配電方面還有很多前沿技術(shù)和方法。有一些技術(shù)已推出多年,有些技術(shù)似乎突然出現(xiàn)。但并非所有技術(shù)都會(huì)獲得市場驅(qū)動(dòng)力。
機(jī)架的革命
對于習(xí)慣于服務(wù)器機(jī)架成排垂直部署的人來說,進(jìn)入法國提供商OVH公司運(yùn)營的云計(jì)算數(shù)據(jù)中心之一就會(huì)有一種錯(cuò)亂的感覺。與業(yè)界的標(biāo)準(zhǔn)做法背道而馳,OVH公司數(shù)據(jù)中心的服務(wù)器機(jī)架不是垂直排列部署的,而是水平堆疊部署的。OVH公司希望成為歐洲主要的云計(jì)算提供商,該公司基于VMware和OpenStack的平臺(tái)即服務(wù)(PaaS)公共云并為客戶托管企業(yè)私有云。
OVH公司在法國Roubaix的數(shù)據(jù)中心設(shè)施附近運(yùn)營一家生產(chǎn)機(jī)架的小型工廠,其生產(chǎn)的“Hori-Racks”機(jī)架與傳統(tǒng)48U機(jī)架尺寸相同,但配置完全不同。在它們內(nèi)部,三個(gè)小型16U機(jī)架并排放置。工廠預(yù)先將這些“Hori-Racks”機(jī)架與服務(wù)器一起運(yùn)送到OVH公司的數(shù)據(jù)中心設(shè)施,這些數(shù)據(jù)中心主要在法國運(yùn)營。
OVH公司首席工業(yè)官FrançoisStérin說,“機(jī)架立平堆疊部署方式的原因是生產(chǎn)速度快,并且易于部署,可以使用叉車將它們部署在數(shù)據(jù)中心,并將其更快地堆疊和安裝。”
其機(jī)架經(jīng)過快速構(gòu)建和測試,采用即時(shí)方法,可以最大限度地減少庫存。三名工作人員可以并排工作來裝載和測試硬件,然后采用叉車、卡車或拖車可以將機(jī)架移動(dòng)到目的地,例如在法國格拉夫林和斯特拉斯堡或新加坡。在數(shù)據(jù)中心機(jī)房中,可以最多將三個(gè)機(jī)架堆疊在一起,提供與傳統(tǒng)機(jī)架相同的服務(wù)器密度。
OVH公司可以自由地選擇或部署硬件,因?yàn)樘峁㏄aaS級(jí)別銷售服務(wù),而不會(huì)與客戶的硬件搭配。此外,OVH公司采用了一種新穎的冷卻方法。
其他公司在改變機(jī)架時(shí)不會(huì)像OVH公司的機(jī)架技術(shù)那樣激進(jìn),但還有很多公司希望采用新方法來構(gòu)建它們。最明顯的例子是采用開源硬件,如由Facebook推出的Open Compute Project(OCP)和由LinkedIn公司推出的Open19。
這兩家公司都是“買家俱樂部”成員,共享硬件的定制設(shè)計(jì),以便多個(gè)客戶可以從這些調(diào)整中獲得大訂單的好處——通常旨在簡化套件,并減少最終產(chǎn)品中浪費(fèi)的材料和能源。事實(shí)證明,傳統(tǒng)的機(jī)架和IT硬件浪費(fèi)了大量資源,從不必要的電源設(shè)備到制造商的品牌標(biāo)簽。
OCP由Facebook公司于2011年推出,旨在開發(fā)和共享機(jī)架和其他硬件的標(biāo)準(zhǔn)化OEM設(shè)計(jì)。該公司推出的理由是,由于規(guī)模龐大,網(wǎng)絡(luò)規(guī)模的公司可以向供應(yīng)商要求自己定制的硬件設(shè)計(jì)。通過更廣泛地分享這些設(shè)計(jì),將有可能將這些好處傳遞給規(guī)模較小的廠商,同時(shí)從他們那里獲得改進(jìn)設(shè)計(jì)的建議。
雖然OCP的創(chuàng)始人都是針對大型云計(jì)算廠商,但有跡象表明,這些想法已經(jīng)進(jìn)一步擴(kuò)展到托管數(shù)據(jù)中心服務(wù)商。在這里,提供商對數(shù)據(jù)中心空間中的硬件沒有最終控制權(quán),因此它無法提供OCP設(shè)想的單片數(shù)據(jù)中心架構(gòu),但是一些客戶正在接受這個(gè)想法,而OCP已經(jīng)發(fā)布了設(shè)施指南,并提出“OCP就緒”的理念,這意味著OCP機(jī)架和OCP硬件將得到歡迎和支持。
OCP提出了一種新的機(jī)架設(shè)計(jì),它將更多的硬件裝入與傳統(tǒng)機(jī)架相同的空間。通過使用機(jī)架內(nèi)的更多空間,它允許采用21英寸規(guī)格的設(shè)備,而不是通常的19英寸。它還允許更深的套件,OpenU的1U尺寸為48mm,而普通機(jī)架的1U尺寸為44.5mm。
該設(shè)計(jì)還使用直流電源,通過機(jī)架背面的是電源分配總線。這種方法吸引了像Facebook公司這樣的大規(guī)模用戶,因?yàn)樗试S數(shù)據(jù)中心取消IT工具包中的多個(gè)電源。它沒有采用交流電源,而是在每個(gè)設(shè)備中將其整流為直流電,并且在一個(gè)地方完成。
Open Rack版本1使用12V直流電源,版本2中也允許使用48V直流電源,這也增加了機(jī)架內(nèi)鋰離子電池的選項(xiàng),可以將其作為一種分布式UPS系統(tǒng)。
這對某些人來說過于激進(jìn)。例如,LinkedIn公司在2016年推出了Open19基金會(huì),該基金會(huì)在不打破19英寸模式的情況下提出了大規(guī)模市場簡化。Open19機(jī)架通過簡化的配電系統(tǒng)劃分多個(gè)機(jī)架,類似于硬件供應(yīng)商提供的專用刀片服務(wù)器。該基金會(huì)還共享LinkedIn公司開發(fā)的網(wǎng)絡(luò)交換機(jī)規(guī)范。
機(jī)架標(biāo)準(zhǔn)正在升級(jí),但Open Rack或Open19是否會(huì)名列前茅?
Open19創(chuàng)始人Yuval Bachar說,“我們看到已經(jīng)推出21英寸的Open Rack機(jī)架產(chǎn)品,我們?nèi)匀煌瞥?9英寸的標(biāo)準(zhǔn)機(jī)架。我們希望在PDU、電源、機(jī)架等常見器件方面降低50%的成本,但實(shí)際上降低了65%的成本。”
就在其推出Open19的同時(shí),LinkedIn公司也被微軟公司收購,微軟公司是OCP的主要支持者,也是Azure云計(jì)算數(shù)據(jù)中心的OCP標(biāo)準(zhǔn)設(shè)備的大型用戶。微軟為OCP提供一些新技術(shù),例如機(jī)架內(nèi)置鋰離子電池,為IT套件提供電源連續(xù)性,可能取代UPS設(shè)備。
在完成LinkedIn收購之后,OCP和Open19將會(huì)繼續(xù)并行,OCP為大型數(shù)據(jù)中心提供服務(wù),而Open19則針對中小公司使用的較小數(shù)據(jù)中心設(shè)施。然而像LinkedIn這樣的公司正在運(yùn)營自己的數(shù)據(jù)中心。此外,Open19還將專注于邊緣計(jì)算部署。
然而,LinkedIn公司在2019年7月宣布,不再計(jì)劃運(yùn)行自己的數(shù)據(jù)中心,并將其所有工作負(fù)載轉(zhuǎn)移到公共云,顯然其使用了微軟公司的Azure云平臺(tái)。
同樣,LinkedIn宣布其Open19技術(shù)規(guī)范將為OCP做出貢獻(xiàn)。OCP規(guī)范和Open19規(guī)范有可能在未來合并,但現(xiàn)在說為時(shí)尚早。即使LinkedIn公司不再需要它,該組織還有25個(gè)以上其他成員采用。
對于網(wǎng)絡(luò)規(guī)模數(shù)據(jù)中心設(shè)施,OCP正在推進(jìn)第三版OCP Rack,由微軟公司和Facebook公司提供支持,這似乎是由人工智能和機(jī)器學(xué)習(xí)所需的功率密度增加所驅(qū)動(dòng)的。
Facebook公司在博客宣布推出OCP Rack v3時(shí)說,“在組件層面,我們看到各種處理器和網(wǎng)絡(luò)芯片的功率密度在不久的將來會(huì)超出空氣冷卻設(shè)備的能力。在系統(tǒng)層面,人工智能硬件解決方案將繼續(xù)推動(dòng)更高的功率密度。”
新版本旨在標(biāo)準(zhǔn)化用于在機(jī)架內(nèi)循環(huán)液體冷卻劑的歧管,以及用于柜門的熱交換器,并包括完全浸入式冷卻系統(tǒng)的選項(xiàng)。目前尚不清楚其詳細(xì)的規(guī)格是什么,但它們將來自O(shè)CP的機(jī)架和電源項(xiàng)目,以及其先進(jìn)的冷卻解決方案子項(xiàng)目。
液體冷卻
在過去的幾十年里,液體冷卻技術(shù)展現(xiàn)出巨大的潛力。液體比空氣具有更高的捕獲和移除熱量的能力,而液體冷卻機(jī)架中的硬件是對現(xiàn)有冷卻實(shí)踐的重大改變。因此,液體冷卻一直列在那些不值得付出額外代價(jià)和精力的技術(shù)名單上。
如果數(shù)據(jù)中心每個(gè)機(jī)架功率低于20kW,采用空氣冷卻技術(shù)可以有效地降低成本,并且無需采用液體冷卻技術(shù)。如果機(jī)架的功率密度通常低于20kW,大多數(shù)數(shù)據(jù)中心可以在不必采用液體冷卻技術(shù)的情況下輕松構(gòu)建。
然而,有兩種可能性將液體冷卻推向應(yīng)用前沿:首先,用于人工智能等技術(shù)的GPU和其他專用硬件將驅(qū)動(dòng)功率密度上升。其次,對于那些實(shí)施液體冷卻的公司來說,還有其他好處。一旦實(shí)施,液體冷卻為數(shù)據(jù)中心設(shè)施開辟了很大的靈活性。風(fēng)冷式機(jī)架是冷卻系統(tǒng)的一部分,必須包括空調(diào)、空氣處理和控制系統(tǒng),并包括整個(gè)建筑物的墻壁和地板。
液冷機(jī)架只需要一條電纜連接,可以單獨(dú)放置在水泥地板上、鋪有地毯的空間或小機(jī)柜中。這可能很難應(yīng)用在零售托管空間中,因?yàn)樗鼤?huì)影響IT設(shè)備的部署和運(yùn)營。因此,除非最終客戶特別需要液體冷卻技術(shù),否則不會(huì)采用。但它確實(shí)適用于數(shù)據(jù)中心日益增加的靈活性,其中設(shè)備提供商可以控制硬件,并且沒有建筑級(jí)別的冷卻遏制系統(tǒng)。
小型邊緣計(jì)算設(shè)施通常是微型數(shù)據(jù)中心,并不具備數(shù)據(jù)中心的多種資源。而其他數(shù)據(jù)中心正在重新利用的建筑物內(nèi)建設(shè),通常是小規(guī)模的增量。液體冷卻系統(tǒng)可以很好地滿足這些要求。
早期的大型機(jī)采用的是水冷卻技術(shù),但在現(xiàn)代,數(shù)據(jù)中心采用各種液體的冷卻技術(shù)。
Asperitas、Submer、GRC等公司完全將機(jī)架設(shè)備浸入在惰性液體中。其冷卻不需要電能,但其維護(hù)很復(fù)雜,因?yàn)槠錂C(jī)架設(shè)計(jì)完全改變,并且必須在更改硬件之前將服務(wù)器和開關(guān)從窗口中取出并排干。Iceotope公司將IT組件浸入機(jī)架內(nèi)托盤的系統(tǒng),現(xiàn)在獲得施耐德公司的技術(shù)支持。
另一些冷卻技術(shù)則提供直接循環(huán),通過耗電器件的散熱器進(jìn)行液體冷卻。這是由那些想要超頻的游戲玩家開發(fā)的技術(shù),以消除產(chǎn)生的額外熱量。像CoolIT這樣的公司為機(jī)架中的商業(yè)設(shè)備開發(fā)了冷卻循環(huán)系統(tǒng),但它們一直是特別針對超級(jí)計(jì)算機(jī)的利基產(chǎn)品。它們需要更換機(jī)架,并引入循環(huán)系統(tǒng),將冷水流入機(jī)架,并將溫水排出。
OVH公司在法國北部的數(shù)據(jù)中心采用了自己的液體冷卻技術(shù),該公司改造后的工廠構(gòu)建數(shù)據(jù)中心,這些工廠以前生產(chǎn)的是掛毯、軟飲料和醫(yī)療用品,采用液體冷卻能夠?qū)⑦@些工廠建筑視為一個(gè)外殼:采用一次性建造、高架地板,以及OVH公司機(jī)架堆棧,并根據(jù)需要采用液體冷卻系統(tǒng)。
OVH公司首席工業(yè)官FrançoisStérin解釋說,“我們的模式是購買現(xiàn)有建筑物,并對其進(jìn)行改造來使用我們的技術(shù)。我們能做到這一點(diǎn)是因?yàn)槲覀冏约旱臋C(jī)架有一個(gè)完全自主的水冷系統(tǒng),而且還在機(jī)架背面使用一個(gè)熱交換器門。這使得我們的機(jī)架與建筑物的其他部分完全無關(guān)。”
Stérin表示,“我們這種技術(shù)的靈活性有助于改變市場。我們不需要建立一個(gè)電力容量100兆瓦以上的大型數(shù)據(jù)中心,可以從建設(shè)和部署1MW數(shù)據(jù)中心開始,可以了解數(shù)據(jù)中心市場對我們的影響。”
OVH公司的創(chuàng)新推動(dòng)了技術(shù)的發(fā)展。OVH公司技術(shù)人員展示了當(dāng)前版本的冷卻技術(shù)的維護(hù)措施,其維持過程看起來有些像外科手術(shù)。首先使用手術(shù)夾將裝有冷卻液的管子密封,然后將電路板與管子斷開并取出,然后采用SSD硬盤替換機(jī)械硬盤。而這種設(shè)計(jì)已經(jīng)被另一種設(shè)計(jì)所取代,這種設(shè)計(jì)使用了卡口接頭,因此無需夾住管子就可以拔出電路板。
當(dāng)然,也可以使用傳統(tǒng)的液體冷卻系統(tǒng),包括機(jī)柜中的熱交換器,在空氣冷卻仍然可行的情況下,這種冷卻系統(tǒng)也很有效。
OVH公司將其與液體冷卻循環(huán)系統(tǒng)相結(jié)合。直接液體冷卻從其IT設(shè)備去除了70%的熱量,但仍然需要去除另外30%的熱量,可以通過后門熱交換器移除。這是一個(gè)將熱量排出的閉環(huán)系統(tǒng)。
對于設(shè)計(jì)安裝在殼體中的IT系統(tǒng),不必采用液體冷卻技術(shù)?,F(xiàn)在常見的一種情況是,在數(shù)據(jù)中心中,服務(wù)器機(jī)器單獨(dú)構(gòu)建在水泥地面上,并采用傳統(tǒng)冷卻系統(tǒng)。Vertiv公司等主流供應(yīng)商提供的模塊化建筑可以放置在水泥地板上,而其他供應(yīng)商也在提供自己的產(chǎn)品。
一個(gè)有趣的供應(yīng)商是Giga Data Centers,該公司聲稱其WindChill數(shù)據(jù)中心PUE值可以低至1.15,例如該公司最近在北卡羅來納州的Mooresville大樓中開通運(yùn)營一個(gè)數(shù)據(jù)中心設(shè)施,其采用的方法是在機(jī)架旁邊建立一個(gè)空氣冷卻系統(tǒng),這樣就可以吸入大量的空氣并進(jìn)行冷卻循環(huán)。
如今,IT硬件設(shè)計(jì)正在以前所未有的速度發(fā)生變化,那些構(gòu)建和托管數(shù)據(jù)中心的廠商需要跟上其發(fā)展的步伐。