Facebook數(shù)據(jù)中心實(shí)踐分析,OCP主要工作成果介紹

責(zé)任編輯:editor005

作者:張廣斌

2015-03-12 14:37:37

摘自:大數(shù)網(wǎng)

為了支持兩個(gè)主板,V2服務(wù)器的供電模塊提升為700W,并與硬盤互換位置,這樣從前面可以直接維護(hù)硬盤。服務(wù)器機(jī)箱里沒有PSU,正好并排擺放三臺(tái)(2個(gè)80mm風(fēng)扇),分別從后部的銅排取電,密度進(jìn)一步提高(2 OU3)且相互獨(dú)立;

保密本就是數(shù)據(jù)中心行業(yè)的慣例。2014年11月,我獨(dú)自去拉斯維加斯(Las Vegas)南部參觀SuperNAP數(shù)據(jù)中心。下車后,幾次試圖用手機(jī)拍建筑外景,迅速被開著悍馬巡邏的警衛(wèi)阻止。進(jìn)門等候預(yù)約時(shí)段,雖說在美國(guó)警衛(wèi)持槍是再平常不過的事,但警衛(wèi)室里那幾位嚴(yán)陣以待、隨時(shí)準(zhǔn)備應(yīng)付劫匪的架勢(shì),仍令我印象深刻。參觀數(shù)據(jù)中心內(nèi)部不允許拍照是行規(guī),不過之前我參觀數(shù)據(jù)中心都有專人陪同,還沒享受過這么戒備森嚴(yán)的待遇。

圖注:SuperNAP 7數(shù)據(jù)中心的接待室,我在這里等了20多分鐘,得以觀察小窗子里面的警衛(wèi)室。圖片來自SuperNAP官網(wǎng),下同

這與托管數(shù)據(jù)中心的性質(zhì)不無關(guān)系,必須為租戶保密。自為客戶的Google則將基礎(chǔ)設(shè)施視為核心競(jìng)爭(zhēng)力之一,這從該公司對(duì)基礎(chǔ)設(shè)施一貫的重視程度也能感受到。因此,Google長(zhǎng)期對(duì)其數(shù)據(jù)中心和定制硬件設(shè)計(jì)秘而不宣,員工入職時(shí)要簽署保密協(xié)議,離開Google一兩年內(nèi)也不能透露。

  圖注:夜幕下的SuperNAP 7數(shù)據(jù)中心,典型的美式大平層結(jié)構(gòu)

但是,那些Google自己公開的數(shù)據(jù)中心內(nèi)外景照片,又是怎么回事?

2009年3月,F(xiàn)acebook從Google挖來工作近6年(更早在思科做過實(shí)習(xí)生)的硬件工程師Amir Michael,主管硬件設(shè)計(jì)。2010年4月1日,F(xiàn)acebook宣布任命Ken Patchett主管其位于俄勒岡(Oregon)州Prineville的第一個(gè)自建數(shù)據(jù)中心。Ken Patchett的職業(yè)生涯從康柏(Compaq)起步,在微軟積累了近6年的數(shù)據(jù)中心和網(wǎng)絡(luò)運(yùn)營(yíng)經(jīng)驗(yàn)。到Google后指導(dǎo)過位于俄勒岡州Dalles的數(shù)據(jù)中心,去Facebook之前又在亞洲工作了一年多,管理Google自有和托管的數(shù)據(jù)中心。轉(zhuǎn)了一圈,又回到俄勒岡州。

  圖注:SuperNAP數(shù)據(jù)中心的警衛(wèi)室

從服務(wù)器設(shè)計(jì)到數(shù)據(jù)中心運(yùn)營(yíng),F(xiàn)acebook堅(jiān)持挖Google墻角,后者又不好打官司——這意味著要公開更多細(xì)節(jié)。更絕的還在后面:2011年4月,乘Prineville數(shù)據(jù)中心投產(chǎn)之東風(fēng),F(xiàn)acebook宣布發(fā)起開放計(jì)算項(xiàng)目(Open Compute Project,OCP),開源了其包括數(shù)據(jù)中心、定制服務(wù)器在內(nèi)的一系列硬件設(shè)計(jì)。

三年兩大招,先挖人,再開放,F(xiàn)acebook在數(shù)據(jù)中心規(guī)模比Google差一個(gè)量級(jí)的條件下,經(jīng)常被與前三大(還有微軟和亞馬遜)相提并論,OCP居功至偉,甚至連“百萬富嗡”(指服務(wù)器風(fēng)扇的噪音,非貶義)微軟都來入伙。

Facebook將數(shù)據(jù)中心宣傳的公關(guān)戰(zhàn)提高到一個(gè)嶄新的水平。Google在2012年10月對(duì)外公開了一些數(shù)據(jù)中心技術(shù)的情況,包括請(qǐng)記者參觀,和網(wǎng)站上近百?gòu)埜咔逦鹊恼掌?。但是,?duì)于IT設(shè)備(服務(wù)器和網(wǎng)絡(luò))及相關(guān)技術(shù),Google依然諱莫如深,至多提及其已廢棄的服務(wù)器。Urs參與的前后兩版書里,也是以宏觀理念和數(shù)據(jù)中心層面的建設(shè)原則為主。

圖注:Google位于俄勒岡州Dalles的數(shù)據(jù)中心依山傍水(哥倫比亞河),團(tuán)隊(duì)成員可以享受漂流、風(fēng)力沖浪、釣魚和徒步的樂趣。注意看左上角的山腰處(來源:Google官網(wǎng))

有趣的是,James Hamilton還對(duì)Google公開的這些信息分析點(diǎn)評(píng)了一番。曾被認(rèn)為在技術(shù)中心實(shí)力和保密程度上與Google一時(shí)瑜亮的AWS,如今似乎是最神秘的了。

總體而言,Google透露的是久遠(yuǎn)的歷史和近期的狀況,中間的壯大過程中傳世不多,F(xiàn)acebook的發(fā)展史或許可資借鑒。

[page]

從一臺(tái)服務(wù)器到多個(gè)數(shù)據(jù)中心

2004年2月,Mark Zuckerberg(馬克·扎克伯格)在哈佛大學(xué)宿舍內(nèi)將Facebook上線,當(dāng)時(shí)只有一臺(tái)服務(wù)器。僅僅五年之后,這個(gè)世界最大的社交網(wǎng)站已擁有超過3億活躍用戶,每天處理3.9萬億feed,超過10億聊天信息,1億搜索請(qǐng)求,每月超過2000億PV……

在只有一小撮人使用,少量照片、沒有視頻的草創(chuàng)時(shí)期,全部服務(wù)運(yùn)行在一臺(tái)服務(wù)器上還是沒問題的。2009年時(shí)的Facebook網(wǎng)站顯然是另一個(gè)樣子:載入用戶主頁這么一個(gè)看似簡(jiǎn)單的動(dòng)作,就需要在不到一秒鐘的時(shí)間里訪問數(shù)以百計(jì)的服務(wù)器,處理上萬片分散在各處的數(shù)據(jù)并提交所需的信息。

服務(wù)器的增長(zhǎng)速度不難想象,有跡象表明,F(xiàn)acebook的服務(wù)器數(shù)量:

2008年4月約1萬臺(tái);

2009年約3萬臺(tái);

2010年6月至少6萬臺(tái)……

即使放在今天,這個(gè)數(shù)量也可以排在Tier 2互聯(lián)網(wǎng)客戶的前列(以10萬臺(tái)為界,超過即為Tier 1,F(xiàn)acebook是十幾家之一),能效就是必須要考慮的問題了。以每臺(tái)服務(wù)器200W的保守計(jì)算,年耗電量已經(jīng)超過1億度。如果數(shù)據(jù)中心PUE(Power Usage Effectiveness,電源使用效率)能從1.5降到1.1,每年即可節(jié)省4200萬度電。

直到2009年,F(xiàn)acebook仍然依靠租用的數(shù)據(jù)中心空間,沒有自建的數(shù)據(jù)中心。租用數(shù)據(jù)中心空間(自己部署服務(wù)器、網(wǎng)絡(luò)等IT設(shè)施)的優(yōu)點(diǎn)是交付速度較快,可以在5個(gè)月內(nèi)搞定;建設(shè)一個(gè)數(shù)據(jù)中心則需要大約一年的時(shí)間和更多的前期投資,但是在供電和散熱等方面可以根據(jù)自身需求定制,對(duì)超大規(guī)模用戶更劃算,Google、、微軟和亞馬遜早就自建數(shù)據(jù)中心了。

  圖注:Prineville的兩座數(shù)據(jù)中心建筑(來源:Facebook官網(wǎng),2014年)

2010年1月,F(xiàn)acebook宣布在俄勒岡州的Prineville建設(shè)屬于自己的第一個(gè)數(shù)據(jù)中心,規(guī)劃面積約1.4萬平米,目標(biāo)PUE為1.15。同年7月,社交巨頭決定將Prineville數(shù)據(jù)中心的規(guī)模倍增至約3萬平米。2010年12月完工,得益于100%使用外部空氣冷卻、無需空調(diào)的一系列高能效設(shè)計(jì),PUE可低至1.073。與1.51的“業(yè)界平均值”相比,節(jié)能幅度還略好于我們剛才的假設(shè)。

圖注:2013年8月底,夕陽下的Altoona數(shù)據(jù)中心建設(shè)工地,占地約194英畝。到2013年11月中旬,每天有超過200人工作,累計(jì)工時(shí)近10萬小時(shí)(來源:Facebook官網(wǎng))

從自建數(shù)據(jù)中心嘗到甜頭的Facebook再接再厲,先后在北卡羅來納州(North Carolina)的Forest City(2010年11月宣布)、瑞典的Lule(2011年10月宣布)和衣阿華(Iowa)州的Altoona(2013年4月宣布)建設(shè)數(shù)據(jù)中心。每個(gè)數(shù)據(jù)中心建成后都有擴(kuò)建,像Prineville和Forest City還各增加了一個(gè)用于冷存儲(chǔ)的數(shù)據(jù)中心(建筑),Lule和Altoona的二期工程也在2014年啟動(dòng)。

OCP緣起:青出于藍(lán)以勝藍(lán)?

沒有開源就沒有今天的互聯(lián)網(wǎng)行業(yè),但這主要是從軟件的角度來說。Google在軟件開源方面還是做了不少工作,著名的Hadoop便可以視為Google無意間“開源”了思路的結(jié)果。就在2015年2月,Google宣布將其2014年6月收購(gòu)獲得的MapReduce for C(MR4C)開源,這是用C++開發(fā)的MapReduce框架,此舉讓用戶可以在自己的Hadoop環(huán)境中運(yùn)行原生的C及C++代碼,是Hadoop社區(qū)的福音。

支撐互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的是開放硬件技術(shù),這與開源不太一樣。英特爾通過開放硬件技術(shù)營(yíng)造的生態(tài)環(huán)境,擊敗了IBM及其他RISC廠商(ARM另當(dāng)別論),但至少在OCP出現(xiàn)之前,無法想象戴爾和惠普會(huì)公開其服務(wù)器的詳細(xì)設(shè)計(jì)材料。而且,“開源+開放”也不意味著結(jié)果一定是透明的,Google就在開源軟件和開放硬件技術(shù)的基礎(chǔ)上打造了專有的數(shù)據(jù)中心。

應(yīng)該說,扎克伯格很早就意識(shí)到,F(xiàn)acebook與Google必有一戰(zhàn),而且這一天遠(yuǎn)比國(guó)人聽著耳熟的某同樣句式表達(dá)來得快。Google在整個(gè)Web上開展廣告業(yè)務(wù),F(xiàn)acebook在自己的社交網(wǎng)絡(luò)里開展廣告業(yè)務(wù),就像騰訊不讓百度搜索進(jìn)入微信一樣,F(xiàn)acebook也要發(fā)展自己的搜索引擎。2013年Facebook上線了Graph Search,2014年12月初又更新為Facebook Search,隨即在Facebook的搜索中去掉來自微軟Bing的Web搜索結(jié)果。

很重要的一個(gè)區(qū)別是,騰訊并不比百度小,而Facebook自身尚不能與Google抗衡。從服務(wù)器到數(shù)據(jù)中心,Google起步早,規(guī)模大,自成體系。為了迅速縮小基礎(chǔ)設(shè)施領(lǐng)域與Google的差距,F(xiàn)acebook想出了通過開源壯大生態(tài)系統(tǒng)的妙招,即成立開放計(jì)算項(xiàng)目(OCP)。

圖注:開放計(jì)算項(xiàng)目(Open Compute Project)的Logo,左側(cè)是用服務(wù)器主板拼成的“f”(來源:張廣彬,2013年)

作為一個(gè)開源的硬件項(xiàng)目,OCP不僅是公布Facebook“白手起家”定制數(shù)據(jù)中心和服務(wù)器的細(xì)節(jié),直到機(jī)架和主板的CAD圖紙,更邀請(qǐng)開源社區(qū)及其他合作伙伴使用并改進(jìn)。也就是分成兩個(gè)步驟:先放出規(guī)范和機(jī)械圖紙,再與社區(qū)共同改進(jìn)它們。

如果我們考慮Facebook和Google身上類似硬件廠商的成分,可以看到,即便是生態(tài)系統(tǒng)的核心廠商如英特爾,也很難有如此社區(qū)化的思維。沒錯(cuò),上一個(gè)這樣做的是Google,為了對(duì)抗蘋果iOS而開源Android,成功的建設(shè)起巨大的生態(tài)系統(tǒng),以群狼圍攻猛虎。

在這個(gè)資金和人才密集型行業(yè),開源是爭(zhēng)奪人才的好辦法,還具有顯著的廣告效應(yīng)。有更多的客戶使用基于OCP規(guī)范的硬件,也可以增大采購(gòu)量,幫助Facebook降低成本,起到類似團(tuán)購(gòu)的效果。

當(dāng)時(shí)OpenStack剛剛興起,OCP也采用了一些類似的做法,譬如上下半年各一次峰會(huì)(Summit),并在2011年10月27日召開的第二屆OCP Summit上,宣布成立OCP基金會(huì)(Open Compute Project Foundation)。不過,硬件設(shè)計(jì)的周期較長(zhǎng),于是,從2012年開始改為每年一次,2015年3月9至11日召開了第六屆峰會(huì)。

  圖注:Facebook的基礎(chǔ)架構(gòu)部門(來源:張廣彬,2013年)

在2014年1月底召開的第五屆OCP峰會(huì)上,Mark Zuckerberg和Facebook工程副總裁Jay Parikh宣布,OCP成立三年來,開源硬件方案幫助Facebook節(jié)約了12億美元。

此時(shí),OCP的成員總數(shù)已接近200家(不乏2014年加入的微軟、VMware等重量級(jí)傳統(tǒng)企業(yè)廠商),以廣達(dá)(Quanta)為代表的7家解決方案提供商,大量經(jīng)過驗(yàn)證的設(shè)計(jì),F(xiàn)acebook和Rackspace的采用……接下來,就從董事會(huì)和典型項(xiàng)目?jī)蓚€(gè)方面,大致介紹一下OCP這個(gè)開源硬件組織的組織架構(gòu)及主要成果。

[page]

董事會(huì):經(jīng)驗(yàn)的傳承

成立基金會(huì),而不是在Facebook一家控制之下,對(duì)OCP發(fā)展的重要性不言而喻。OCP基金會(huì)在董事會(huì)的管理下運(yùn)作,最初有5位董事,分別來自5家公司。

Frank Frankovsky代表Facebook,擔(dān)任OCP基金會(huì)主席兼總裁。2009年10月加入Facebook,先后擔(dān)任硬件設(shè)計(jì)與供應(yīng)鏈運(yùn)營(yíng)總監(jiān)和副總裁。此前,在戴爾負(fù)責(zé)服務(wù)器定制業(yè)務(wù)的數(shù)據(jù)中心解決方案(Data Center Solutions,DCS)部門擔(dān)任總監(jiān)近四年,上世紀(jì)90年代曾任康柏(Compaq)計(jì)算機(jī)公司的產(chǎn)品經(jīng)理。

圖注:Facebook硬件實(shí)驗(yàn)室一角。在硬件實(shí)驗(yàn)室里,這已經(jīng)算相當(dāng)整潔的了(來源:張廣彬,2013年)

Mark Roenigk是Rackspace Hosting的COO,在微軟工作過9年,大部分時(shí)間負(fù)責(zé)OEM和供應(yīng)鏈運(yùn)營(yíng),此前7年是康柏的工程師。Rackspace是著名的服務(wù)器托管商,有豐富的數(shù)據(jù)中心建設(shè)、運(yùn)營(yíng)和硬件經(jīng)驗(yàn),還與NASA共同催生了OpenStack——是惟一在一軟一硬這兩大開源組織中都有肇始之功的公司。

Jason Waxman現(xiàn)任英特爾(Intel)數(shù)據(jù)中心事業(yè)部高密度計(jì)算業(yè)務(wù)總經(jīng)理,主要負(fù)責(zé)的領(lǐng)域包括互聯(lián)網(wǎng)數(shù)據(jù)中心、刀片服務(wù)器以及與未來密集型數(shù)據(jù)中心架構(gòu)相關(guān)的技術(shù)。他還負(fù)責(zé)領(lǐng)導(dǎo)英特爾在云計(jì)算方面的工作,并在Blade.org和服務(wù)器系統(tǒng)架構(gòu)組織(Server System Infrastructure Forum,SSI Forum)的董事會(huì)兼任管理職位。此前曾擔(dān)任負(fù)責(zé)英特爾至強(qiáng)(Xeon)處理器、相關(guān)芯片組和平臺(tái)產(chǎn)品及其客戶關(guān)系的總監(jiān)。

圖注:Facebook在硅谷的園區(qū)以前屬于Sun——一家值得緬懷的偉大公司,順道緬懷拍下這張照片的手機(jī)(來源:張廣彬,2013年)

Andy Bechtolshiem來自Arista Networks,更響亮的名頭是“Sun Microsystems共同創(chuàng)辦人”。Andy Bechtolshiem擔(dān)任過Sun的首席系統(tǒng)架構(gòu)師,第一個(gè)投資Google,還擔(dān)任閃存初創(chuàng)企業(yè)DSSD的董事長(zhǎng)——后者2014年5月被EMC高調(diào)收購(gòu)。

除高盛(Goldman Sachs)的Don Duet職業(yè)生涯主要履歷為CIO之外,以上四人均有深厚的硬件行業(yè)背景,從產(chǎn)品、技術(shù)到供應(yīng)鏈都有涉獵,見多識(shí)廣,經(jīng)驗(yàn)豐富,對(duì)把控開源硬件項(xiàng)目的發(fā)展方向至關(guān)重要。

正如前面所說,OCP下轄的項(xiàng)目很多,從服務(wù)器到數(shù)據(jù)中心,還包括機(jī)架(Rack)、存儲(chǔ)、網(wǎng)絡(luò)、硬件管理,并于2014年啟動(dòng)了HPC(High Performance Computing,高性能計(jì)算)項(xiàng)目。

服務(wù)器:始于Google,終成一派

Facebook開始定制硬件不算早,前期的服務(wù)器也來自O(shè)EM。Facebook基礎(chǔ)設(shè)施工程負(fù)責(zé)人Jay Parikh在2012年10月中旬的GigaOm Structure歐洲會(huì)議上表示,在瑞典Lule的數(shù)據(jù)中心將是Facebook首次完全沒有采用OEM服務(wù)器硬件。

圖注:Facebook的數(shù)據(jù)中心集群(2014年公開資料),前端(FE)集群包括大量的Web服務(wù)器和一些廣告服務(wù)器、相對(duì)少量的Multifeed服務(wù)器;服務(wù)集群(SVC)包括搜索、圖片、消息等服務(wù)器,后端(BE)集群主要是數(shù)據(jù)庫服務(wù)器。這一配置規(guī)模有可能隨著后面提及“6-pack”核心交換機(jī)的應(yīng)用而改變。

這顯然與本章一開始提到的Amir Michael有直接關(guān)系,他比Frank Frankovsky還早半年加入Facebook,也是OCP的共同創(chuàng)辦人之一,2013年1月起擔(dān)任OCP孵化委員會(huì)(Incubation Committee,IC)副主席,4月出任Coolan CEO——該公司與Facebook及OCP頗有淵源,Amir Michael又是共同創(chuàng)辦人。

圖注:區(qū)域數(shù)據(jù)中心之間的基礎(chǔ)設(shè)施冗余。FE(前端集群)、SVC(服務(wù)集群)、BE(后端集群)組成一個(gè)整體,與另一個(gè)區(qū)域的數(shù)據(jù)中心互為冗余(來源:Facebook)

[page]

超越往往從學(xué)習(xí)和模仿開始,雖然牛頓所謂“站在巨人的肩上”并非此意。OCP成立時(shí),F(xiàn)acebook數(shù)據(jù)中心團(tuán)隊(duì)貢獻(xiàn)的第一代OCP服務(wù)器,很大程度借鑒了Google的設(shè)計(jì),最明顯的標(biāo)志就是1.5U(66mm)的服務(wù)器機(jī)箱。這樣做的好處是可以使用直徑更大的60mm低轉(zhuǎn)速風(fēng)扇,與1U服務(wù)器的40mm風(fēng)扇相比,節(jié)能效果顯著。450W供電模塊(PSU)支持277V交流和48V直流輸入,前者比208V減少不必要的電壓轉(zhuǎn)換,后者由備份電池提供短時(shí)電力供應(yīng),都是為了盡可能的避免能源損耗。散熱與供電雙管齊下,控制電費(fèi)(省OPEX)。

  圖注:Prinevill數(shù)據(jù)中心的供電轉(zhuǎn)換環(huán)節(jié)與損耗狀況對(duì)比(來源:Facebook)

另一點(diǎn)是去掉(前)面板和BMC,沒有VGA接口,以貫徹Facebook的“Vanity-free”(無浪費(fèi))精神。目標(biāo)是盡可能降低購(gòu)置成本(省CAPEX),盡管做工看起來有點(diǎn)糙。正如Jay Parikh所言,OCP服務(wù)器比標(biāo)準(zhǔn)服務(wù)器少很多功能,也盡可能需要更少的部件。

  圖注:48伏電池柜的輸電路徑(來源:Facebook)

OCP V1服務(wù)器有AMD(12核Opteron 6100)和Intel(6核Xeon 5600)兩種雙路方案,主板尺寸為13×13英寸,由廣達(dá)(Quanta)制造。機(jī)箱寬度(480mm,略小于19英寸)和高度單位(Rack U,即RU,1RU為1.75英寸,即44.45mm)都遵守工業(yè)標(biāo)準(zhǔn)的“老規(guī)矩”,后端有3個(gè)硬盤托架,與主板均為免工具拆裝。

圖注:OCP服務(wù)器V1(左)和V2(右)采用同樣的1.5U機(jī)箱,4個(gè)60mm風(fēng)扇位于主板后方,右側(cè)的硬盤托架由供電模塊提供冷卻氣流。V2的改進(jìn)包括:硬盤前置便于維護(hù);2個(gè)主板提升計(jì)算密度,但犧牲了可能的硬盤數(shù)量;CPU性能提升(來源:Facebook)

2012年5月初在圣安東尼奧召開的第三屆OCP峰會(huì)之前,AMD和Intel貢獻(xiàn)了第二代OCP主板的設(shè)計(jì),得益于至強(qiáng)(Xeon)E5-2600,Intel開始占據(jù)壓倒性的優(yōu)勢(shì)。代號(hào)“Windmill”的Intel OCP v2.0主板采用雙路Intel Xeon E5-2600,外形長(zhǎng)而窄(6.5×20英寸,約165×508mm)。OCP V2服務(wù)器仍為1.5U規(guī)格,但主板寬度只有第一代的一半,因而能容納兩個(gè)計(jì)算節(jié)點(diǎn),在同樣的機(jī)箱內(nèi)將密度翻番。

為了支持兩個(gè)主板,V2服務(wù)器的供電模塊提升為700W,并與硬盤互換位置,這樣從前面可以直接維護(hù)硬盤。

經(jīng)過兩代服務(wù)器的摸索,相繼暴露出一些問題:

供電模塊的冗余度差。相比于工業(yè)標(biāo)準(zhǔn)服務(wù)器的1+1冗余電源,這兩代服務(wù)器只有一個(gè)供電模塊。OCP V1服務(wù)器尚可用“牲口模式”來解釋(關(guān)鍵組件出問題即替換整個(gè)服務(wù)器),OCP V2服務(wù)器的供電模塊故障會(huì)導(dǎo)致兩個(gè)計(jì)算節(jié)點(diǎn)失效,有點(diǎn)矯“枉”過正。為此Facebook還設(shè)計(jì)了高可用(High Availability,HA)服務(wù)器的方案,即增加一個(gè)PSU,替換下來一個(gè)主板,等于把計(jì)算密度又降回去了。

可以用前一章所述把PSU集中到機(jī)架層面的方案(此時(shí)中國(guó)的天蝎整機(jī)柜已經(jīng)這么做了),但是以19英寸機(jī)箱的寬度,拿走PSU剩下的空間,又不足以放下第三個(gè)主板(6.5×3=19.5英寸)。

計(jì)算與存儲(chǔ)沒有解耦合。這在OCP V1服務(wù)器中尤為明顯,3個(gè)驅(qū)動(dòng)器托架可以放6個(gè)硬盤,計(jì)算節(jié)點(diǎn)只用一個(gè)啟動(dòng)盤的話,為保留不夠用的靈活性而造成大量的空間浪費(fèi);OCP V2還好,因?yàn)樵黾拥闹靼鍞D占了2個(gè)驅(qū)動(dòng)器托架的位置。

60mm風(fēng)扇還不夠大。

不同程度的保留了USB接口,卻沒有BMC(Baseboard Management Controller,基板管理控制器)。哪個(gè)對(duì)管理更有價(jià)值,不言而喻。

除了最后一點(diǎn),其他幾點(diǎn)都需要機(jī)箱、乃至機(jī)架設(shè)計(jì)的改變。

Open Rack:重新定義數(shù)據(jù)中心機(jī)架

Facebook最初采用19英寸三聯(lián)柜設(shè)計(jì),名為Freedom Triplet,寬度為1713mm,比三個(gè)并排的EIA 310-D機(jī)架(600mm×3)略窄。外側(cè)的兩個(gè)機(jī)架(機(jī)柜,Rack)上各有一個(gè)架頂式(Top of Rack,ToR)交換機(jī),每一列30個(gè)Open Compute服務(wù)器,共90個(gè)。一組三聯(lián)柜裝滿90個(gè)服務(wù)器后總重2600磅(約1179公斤),兩組三聯(lián)柜共享一個(gè)備份電池柜。

圖注:配合前兩代服務(wù)器的Freedom三聯(lián)柜,因并聯(lián)而略省材料且更穩(wěn)固,高度也略高于常見19英寸機(jī)架,可容納30個(gè)1.5U服務(wù)器(45U)以及交換機(jī)(來源:OCP規(guī)范)

Facebook很快認(rèn)識(shí)到,形成于1950年代的EIA 310-D標(biāo)準(zhǔn)不能滿足他們的要求。EIA 310-D標(biāo)準(zhǔn)化了機(jī)架內(nèi)軌之間的寬度(19英寸),但把高度、深度、安裝和布線方案以及連接器的規(guī)范留給制造商去定義。Facebook認(rèn)為,這導(dǎo)致服務(wù)器和機(jī)架設(shè)計(jì)不必要的分化,把客戶鎖定于特定的供應(yīng)商及其實(shí)現(xiàn)。

圖注:一個(gè)直流UPS電池柜支持兩組三聯(lián)柜共180臺(tái)服務(wù)器的全系統(tǒng)(來源:Facebook,2010年)

[page]

更關(guān)鍵的問題在于,傳統(tǒng)的19英寸機(jī)架,考慮到側(cè)邊和滑軌,留給IT設(shè)備(服務(wù)器、存儲(chǔ))的可用寬度只有17.5英寸,不能并排放置3個(gè)(6.5英寸寬)主板或5個(gè)3.5英寸硬盤。嫌窄者早已有之,如IBM大機(jī)和EMC的高端存儲(chǔ),都有寬度在60cm以上的機(jī)架,譬如EMC Symmetrix VMAX,系統(tǒng)和存儲(chǔ)機(jī)架寬度均超過75cm(30.2英寸,合76.7cm),為的也是容納更大的服務(wù)器(存儲(chǔ)控制器)或更多的硬盤。

不過,一則拓展外寬未必提高效率,二則大機(jī)和高端存儲(chǔ)從量上來說,還是小眾產(chǎn)品,很少有人幾千個(gè)機(jī)架的買。Facebook的辦法是保持外寬600mm(近24英寸)不變,把內(nèi)部橫向間距從483mm擴(kuò)大到538mm(21英寸),提高55mm(約2.2英寸),取消占地費(fèi)錢的滑軌,空間利用率從73%(17.5英寸時(shí))躍升為87.5%,可謂創(chuàng)舉。

圖注:Open Rack俯視圖(下前上后),可以看清內(nèi)寬擴(kuò)大,前端維護(hù)&后端供電等要素(來源:OCP規(guī)范)

既然重要的內(nèi)寬已經(jīng)改變,索性把每個(gè)Unit也重新定義,高度從傳統(tǒng)Rack U(RU)的44.5mm,略微放大至48mm,名為OpenU,簡(jiǎn)稱OU,機(jī)架也起名為Open Rack(開放機(jī)架)。為與之前的設(shè)備兼容,保留0.5 OU為最小單位,不過后來似乎沒有推出過非整數(shù)OU的產(chǎn)品。

然后是整合供電模塊,分為3個(gè)供電區(qū)(Power Zone),每個(gè)供電區(qū)有3 OU供電框安置7個(gè)700W的PSU(來自O(shè)CP V2服務(wù)器),N+1配置,共4.2kW,整個(gè)機(jī)架的供電能力達(dá)12.6kW。每機(jī)架兩個(gè)PDU,200-277V交流在左后方,48V直流在右后方。服務(wù)器從機(jī)架正后方等距分布的3根銅排(Bus bar,母線)上取電,PSU輸出電壓12.5V,正好滿足服務(wù)器對(duì)12V輸入的要求。

Open Rack v0.5版規(guī)范于2011年12月15日釋出,在第三屆OCP峰會(huì)上隆重介紹。該版本建議每個(gè)供電區(qū)為15 OU,12 OU用于IT設(shè)備;然后再留2 OU放置ToR交換機(jī),總高度至少47 OU(不低于2300mm,似可見之前Triplet縱向空間分配思路的遺存)。2012年9月18日,Open Rack 1.0規(guī)范公布,主要明確了以下幾點(diǎn):

專注于單列機(jī)架設(shè)計(jì)(非三聯(lián)柜);

入口(inlet)溫度提高到35攝氏度,反映其他Open Compute設(shè)計(jì)和真實(shí)數(shù)據(jù)中心的溫度;

交換機(jī)布置更靈活,不僅限于供電區(qū)的頂端;

計(jì)算設(shè)備(服務(wù)器/存儲(chǔ))機(jī)箱為1-10 OpenU高,支持L形支架直接承載。L形支架明顯比傳統(tǒng)服務(wù)器的測(cè)滑軌節(jié)省空間和成本,免工具安裝,可以0.5 OpenU(24mm)為增量固定;

最大高度取決于供電區(qū),但建議不要超過2100mm,以保持穩(wěn)定。常見的做法是每個(gè)供電區(qū)13 OU,IT設(shè)備10 OU,再加2 OU交換機(jī),共41 OU;

新設(shè)計(jì)的簧片(clip),使機(jī)箱電源連接器易與銅排配合。

圖注:Open Rack V1前視圖和側(cè)視圖(左前右后),可以看到縱向空間的分配(來源:OCP規(guī)范)

綜合起來,Open Rack的特點(diǎn)主要是:

拓展空間。 開創(chuàng)性的提高了內(nèi)部利用率,特別是留給IT設(shè)備的寬度大為增加,單位高度也略有提升,同時(shí)盡可能的保持了與原有機(jī)架標(biāo)準(zhǔn)的兼容性(外寬一致,高度接近);

集中供電。 提供機(jī)架范圍內(nèi)的共享與冗余,服務(wù)器等IT設(shè)備直接插拔取電,免去上架時(shí)的手動(dòng)連線工作;

前端維護(hù)。 后端用于供電和散熱,維護(hù)人員在冷通道一側(cè)即可完成日常工作,不用進(jìn)入熱通道。兩邊跑不僅增加了工作量,在后端識(shí)別設(shè)備困難,容易導(dǎo)致誤操作。

當(dāng)然副作用也是有的,即兩側(cè)起支撐作用的部分變薄,同時(shí)內(nèi)部IT設(shè)備可能的重量還會(huì)增加(Open Rack V1.1規(guī)范已達(dá)950千克,接近本節(jié)開頭提到的三聯(lián)柜),對(duì)機(jī)架強(qiáng)度提出挑戰(zhàn)。在整機(jī)柜交付等運(yùn)輸途中尤其如此,早期的Open Rack要在后端加斜梁輔助,防止變形。

不過,在目前的Open Rack V2規(guī)范里,基本機(jī)架配置在動(dòng)態(tài)環(huán)境下支持500千克的IT設(shè)備,通過增加緊固螺栓等手段,重載機(jī)架配置(Heavy Rack Config)可以支持1400千克的IT設(shè)備——作為對(duì)比,James Hamilton在re:Invent 2014大會(huì)上透露,AWS的存儲(chǔ)優(yōu)化機(jī)架可容納864個(gè)(3.5英寸)硬盤,重達(dá)2350英鎊(約1066千克)——要怎么裝出這個(gè)密度來,也是門學(xué)問。

還是類似三聯(lián)柜的方式穩(wěn)固(來源:OCP Engineering Workshop)

圖注:Open Rack V2還有重組供電布局、去掉單獨(dú)電池柜等重要改進(jìn),將在后面的章節(jié)介紹。

[page]

Open Vault:存儲(chǔ)從服務(wù)器分離

得益于Open Rack,第四屆OCP峰會(huì)上亮相的第三代OCP服務(wù)器(代號(hào)Winterfell)在設(shè)計(jì)上有質(zhì)的飛躍:

主板仍然是v2.0,但服務(wù)器高度增至2 OU,并特意強(qiáng)調(diào)不是1.5 OU,80mm風(fēng)扇效率進(jìn)一步提高;

更大的縱向空間有利于容納全尺寸GPGPU,支持兩個(gè)全高的PCIe卡,一個(gè)3.5英寸驅(qū)動(dòng)器槽位,均從前端維護(hù);

服務(wù)器機(jī)箱里沒有PSU,正好并排擺放三臺(tái)(2個(gè)80mm風(fēng)扇),分別從后部的銅排取電,密度進(jìn)一步提高(2 OU3)且相互獨(dú)立;

觀感上,做工精細(xì)了很多,裸露部分的處理也較好,總體上不輸一般商用服務(wù)器的水準(zhǔn)。

圖注:用于Open Rack V1的OCP服務(wù)器(Winterfell)俯視圖及三聯(lián)裝(共占用2 OU機(jī)架空間)(來源:網(wǎng)絡(luò)圖片組合)

現(xiàn)在的OCP服務(wù)器主板已發(fā)展到V3.1,尺寸不變,支持Intel Xeon E5-2600 V3,16個(gè)DIMM/NVDIMM,加上了BMC,支持Open Rack V1和V2。3個(gè)75W PCIe x8插槽,擠占了硬盤的位置,代之以板載mSATA/M.2(2260,60mm長(zhǎng)),以前只支持mSATA,且需要通過適配器。

硬盤先是被邊緣化,接著連裝操作系統(tǒng)的工作也被SSD搶走了。那么,大容量存儲(chǔ)怎么辦?

圖注:沒有存儲(chǔ)項(xiàng)目時(shí)Facebook的6種服務(wù)器類型,Type Ⅱ因與Type Ⅵ配置而被并入(弱勢(shì)的AMD啊),多數(shù)公開資料里都沒有;Type Ⅳ和Ⅴ的存儲(chǔ)配置看著很像2U的所謂“存儲(chǔ)服務(wù)器”(來源:Facebook)

我們常說,互聯(lián)網(wǎng)公司是不買存儲(chǔ)(設(shè)備)的,這里指的是SAN、NAS等傳統(tǒng)的企業(yè)級(jí)陣列,而不是沒有對(duì)大容量存儲(chǔ)的需求。像前面剛提到的AWS存儲(chǔ)優(yōu)化機(jī)架,即為一例。

OCP V1服務(wù)器支持最多6個(gè)3.5英寸硬盤,都放滿,不算多;只放一兩個(gè),剩下的空間又派不上別的用場(chǎng)。保持靈活性,就得付出浪費(fèi)空間的代價(jià),問題是也沒多靈活。

其時(shí)Amir宣布了一個(gè)面向存儲(chǔ)密集型應(yīng)用的項(xiàng)目設(shè)計(jì),看起來像是個(gè)4U設(shè)備,支持50個(gè)硬盤,分配到兩個(gè)控制器,可以連接到多臺(tái)服務(wù)器,提供可變的計(jì)算與存儲(chǔ)配比。

第三屆OCP峰會(huì)上,失勢(shì)的AMD基于其雙插槽Opteron 6200主板建立了一個(gè)代號(hào)Roadrunner的項(xiàng)目,包括1U(HPC選項(xiàng))、1.5U(通用)、2U(云選項(xiàng))、3U(存儲(chǔ)計(jì)算選項(xiàng))共四個(gè)規(guī)格。2U支持8個(gè)3.5英寸或25個(gè)2.5英寸驅(qū)動(dòng)器,3U支持12個(gè)3.5英寸或35個(gè)2.5英寸驅(qū)動(dòng)器,僅以3.5英寸硬盤的密度而言,還不如OEM廠商推出的服務(wù)器。在Open Rack實(shí)用后,這個(gè)項(xiàng)目愈發(fā)沒有下文,AMD也投靠了ARM陣營(yíng),在OCP的項(xiàng)目里主要以微服務(wù)器卡(Micro-Server Card)刷存在感。

總的來說,還是Amir那個(gè)計(jì)算與存儲(chǔ)分離(解耦,disaggregation)的思路靠譜。Facebook在時(shí)任硬件工程經(jīng)理Per Brashers和中國(guó)籍工程師晏勇等工作人員的努力下,于同一屆峰會(huì)上公開的Open Vault(代號(hào)Knox)取得了成功。這是一個(gè)寬度和高度(2 OU)都適配Open Rack的JBOD(Just a Bunch of Disks,一堆硬盤的簡(jiǎn)單集合,無處理能力,需配合計(jì)算節(jié)點(diǎn)使用),共30個(gè)3.5英寸硬盤,分為上下兩層,每層有15個(gè)硬盤和一對(duì)冗余的“控制器”。電路邏輯比服務(wù)器主板簡(jiǎn)單許多,基本上是Facebook獨(dú)力設(shè)計(jì)完成,先交由廣達(dá)生產(chǎn),貢獻(xiàn)給OCP之后,與OCP服務(wù)器一樣有其他提供商(如Hyve Solutions和Wiwynn)生產(chǎn)的版本。

圖注:抽出一層(tray)共15個(gè)硬盤的Open Vault,背景機(jī)架供電區(qū)上方的2 OU設(shè)備為廣達(dá)的JBR,也是JBOD(來源:張廣彬,2013年)

Open Vault是個(gè)非常經(jīng)典的設(shè)計(jì),后面會(huì)有專門的章節(jié)展開分析。

圖注:除了CPU、內(nèi)存和硬盤配置的自然更新,2013年Facebook 的Hadoop(類型4)和Haystack(類型5)服務(wù)器都用上了Open Vault,冷存儲(chǔ)機(jī)架更成為一種新的服務(wù)器類型(7),從硬件架構(gòu)上也可以理解為一臺(tái)單控制器帶8個(gè)JBOD組成的低性能存儲(chǔ)系統(tǒng)(來源:根據(jù)Facebook數(shù)據(jù)制表)

現(xiàn)在,需要大容量存儲(chǔ)的Facebook服務(wù)器,如Type Ⅳ(用于Hadoop)和Type Ⅴ(用于Haystack,F(xiàn)acebook的圖片應(yīng)用)都由Open Vault提供存儲(chǔ),還增加了一個(gè)OCP服務(wù)器帶8個(gè)Open Vault(240個(gè)硬盤)的冷存儲(chǔ)(Cold Storage)類型——共18U,占據(jù)半個(gè)機(jī)架。

[page]

數(shù)據(jù)中心:RDDC與水……

如前面介紹,OCP的孕育便與數(shù)據(jù)中心建設(shè)有著密不可分的關(guān)系,F(xiàn)acebook貢獻(xiàn)的基于Prineville數(shù)據(jù)中心實(shí)踐的數(shù)據(jù)中心電氣和機(jī)械設(shè)計(jì)規(guī)范,是OCP最早的文檔之一;Facebook向OCP貢獻(xiàn)的冷存儲(chǔ)硬件設(shè)計(jì)規(guī)范包括了冷存儲(chǔ)數(shù)據(jù)中心地面布局的建議,冷存儲(chǔ)服務(wù)器就是前述的配置。

圖注:位于北極圈邊緣的Facebook Lule數(shù)據(jù)中心,景象是不是有點(diǎn)像前一章介紹的Google芬蘭Hamina數(shù)據(jù)中心?為Hamina數(shù)據(jù)中心提供電能的Maevaara風(fēng)力發(fā)電廠就在Lule北邊不遠(yuǎn)……(圖片來源:Facebook)

2014年3月初,F(xiàn)acebook數(shù)據(jù)中心設(shè)計(jì)團(tuán)隊(duì)的設(shè)計(jì)工程師Marco Magarelli在OCP官網(wǎng)上撰文表示,瑞典Lule園區(qū)的第二座數(shù)據(jù)中心建筑(Lule 2)將采用“快速部署數(shù)據(jù)中心”(Rapid Deployment Data Center,RDDC)的概念模塊化構(gòu)建。RDDC包括兩種方法,第二種“flat pack”(組合件)方式自稱效仿宜家(Ikea),不過,真正“因地制宜”的是為了適應(yīng)瑞典寒冷的氣候(Lule離北極圈不到100公里)——Facebook機(jī)械和散熱工程師Veerendra Mulay在與我的交流中表示,用傳統(tǒng)的方法建設(shè)數(shù)據(jù)中心需要11~12個(gè)月(參見Prineville),RDDC可以縮短為3~8個(gè)月,從而盡量避開Lule下雪的季節(jié)(騰訊天津數(shù)據(jù)中心建設(shè)過程中也曾被暴雪所阻)。

  圖注:chassis方式的不同類型模塊(來源:Facebook)

第一種“chassis”(底盤)方式來源于12英尺寬、40英尺長(zhǎng)的預(yù)組裝鋼框架,是類似組裝汽車底盤的理念:構(gòu)建框架,然后在組裝線上附件部件。電纜槽、輸電排、控制面板乃至照明都在工廠預(yù)安裝好。對(duì)應(yīng)的,這種模塊化方法就像搭建樂高積木。

  圖注:flat pack方式的分段組裝(來源:Facebook)

顧名思義,這兩種方法的精髓都體現(xiàn)了由傳統(tǒng)的工程項(xiàng)目到工廠預(yù)制產(chǎn)品、現(xiàn)場(chǎng)模塊化組裝的轉(zhuǎn)變。通過部署預(yù)安裝的總成和預(yù)制單元模塊、交付可預(yù)測(cè)和可重用的產(chǎn)品,RDDC能夠?qū)崿F(xiàn)站點(diǎn)無關(guān)設(shè)計(jì)、減少現(xiàn)場(chǎng)影響、改善執(zhí)行和工藝的目標(biāo),加快數(shù)據(jù)中心建設(shè)的速度,提高利用率且易于復(fù)制到其他地區(qū)。提高效率,終歸是要服務(wù)業(yè)務(wù)需求。

圖注:Prineville第一座數(shù)據(jù)中心的散熱設(shè)計(jì),上層頂棚(對(duì)照前面Altoona數(shù)據(jù)中心的框架結(jié)構(gòu)照片)對(duì)外部冷空氣和回流熱空氣進(jìn)行處理,按一定比例混合

RDDC很大程度上得益于Facebook著力推行的新風(fēng)供冷(fresh air cooling),沒有空調(diào)(Chiller-less)和冷卻水管道,便于實(shí)現(xiàn)數(shù)據(jù)中心的模塊化,另一好處是很低的PUE(約1.07)。相比之下,Google的數(shù)據(jù)中心模塊化程度雖然高,但冷卻水管道多少是個(gè)阻礙,PUE也略吃虧(約1.12)。不過,因?yàn)橐繃娝F調(diào)節(jié)溫度和濕度,F(xiàn)acebook的數(shù)據(jù)中心安全性略遜一籌。

圖注:Google俄勒岡州Dalles數(shù)據(jù)中心內(nèi)景,藍(lán)色的是冷水供應(yīng)管道,紅色的把溫水送回致冷。鋪設(shè)水管典型的工程項(xiàng)目,費(fèi)時(shí)費(fèi)力,難以模塊化(來源:Google官網(wǎng))

2011年夏天,Prineville的數(shù)據(jù)中心投入使用不久,建筑控制系統(tǒng)錯(cuò)誤的輸送了富含水分(濕度95%)的冷空氣(80華氏度),“機(jī)房里就像飄著一朵雨云”,很多服務(wù)器遇濕重啟,或者因電線短路而自動(dòng)關(guān)機(jī)。那年6月下旬,F(xiàn)acebook曾計(jì)劃將Prineville數(shù)據(jù)中心二期像北卡Forest城數(shù)據(jù)中心一樣,把服務(wù)器進(jìn)風(fēng)溫度從80華氏度(26.7攝氏度)提高到85華氏度(約29度),相對(duì)濕度從65%提高到90%,溫升(ΔT)從25華氏度提高到35華氏度,旨在減少環(huán)境的影響,并允許減少45%的空氣處理硬件?,F(xiàn)在看來其后兩個(gè)指標(biāo)只到80%和22華氏度,且只有Forest城數(shù)據(jù)中心相對(duì)濕度為90%,不知是否與這次事故有直接關(guān)聯(lián)。

圖注:Facebook三大數(shù)據(jù)中心(Prineville、Forest City、Lule)基本設(shè)計(jì)指標(biāo)對(duì)比(來源:Facebook)

[page]

網(wǎng)絡(luò):從邊緣走向核心

Intel在至強(qiáng)E5-2600的參考平臺(tái)中力推夾層卡(Mezzanine Card)設(shè)計(jì),特別是網(wǎng)卡,讓高密度的機(jī)器獲得和標(biāo)準(zhǔn)(PCIe)插卡接近的靈活性。這一思想在同樣基于至強(qiáng)E5-2600的OCP Intel V2.0主板上得到了很好的體現(xiàn),按照OCP Mezzanine Card 1.0規(guī)范設(shè)計(jì)的夾層卡,安裝位置在主板前端(冷通道側(cè)),便于維護(hù)。

就標(biāo)準(zhǔn)機(jī)架服務(wù)器而言,網(wǎng)卡采用夾層卡設(shè)計(jì)的緊迫性不高,還會(huì)提高成本,所以O(shè)EM大廠的響應(yīng)不是很熱烈。支持者如戴爾等將靈活性作為主要賣點(diǎn),以Broadcom或Intel的網(wǎng)卡模塊為主,希望能推動(dòng)傳統(tǒng)企業(yè)用戶加速向萬兆網(wǎng)卡升級(jí)。OCP服務(wù)器則大量采用Mellanox的萬兆夾層卡,豐富的特性如能降低傳輸延遲的RoCE(RDMA over Ethernet,以太網(wǎng)遠(yuǎn)程內(nèi)存直接訪問)和硬件虛擬化技術(shù)SR-IOV(Single Root I/O Virtualization,單根虛擬化)也是其賣點(diǎn)。甚至國(guó)內(nèi)OEM服務(wù)器大廠如聯(lián)想,亦在其天蝎2.0服務(wù)器節(jié)點(diǎn)中采用這種夾層網(wǎng)卡,如此“拿來主義”精神對(duì)擴(kuò)大OCP的覆蓋有一定積極作用。

圖注:聯(lián)想天蝎2.0整機(jī)柜服務(wù)器節(jié)點(diǎn)用的就是萬兆OCP夾層卡CX341A,Mellanox ConnectX-3 EN家族的單端口10GbE網(wǎng)卡,以色列原廠生產(chǎn)(來源:張廣彬)

OCP Intel V3.0主板加入了對(duì) OCP Mezzanine Card 2.0的支持。2.0版夾層卡新增了可選的第二連接器,以滿足未來高速網(wǎng)絡(luò)(如100GbE)的需求,目前來看更主要的變化是擴(kuò)大了板上空間,支持的接口模塊也從1.0的2個(gè)SFP+升至2個(gè)QSFP、4個(gè)SFP+或4個(gè)RJ45/10GBASE-T的多種選擇。

圖注:OCP夾層卡V2主要有三大改進(jìn):增加連接器B、擴(kuò)大板上空間、可選I/O區(qū)域(來源:OCP Engineering Workshop)

說到這里有必要指出,夾層卡屬于服務(wù)器項(xiàng)目。OCP在網(wǎng)絡(luò)項(xiàng)目上的起步相對(duì)較晚,從2013年才開始有規(guī)范產(chǎn)生,2014年逐漸壯大。

按照OCP官網(wǎng)上的說法,網(wǎng)絡(luò)項(xiàng)目最初的目標(biāo)是開發(fā)邊緣(leaf,指ToR)交換機(jī),然后是骨干(spine,相當(dāng)于Aggregation)交換機(jī)和其他硬件及軟件方案。

圖注:三層網(wǎng)絡(luò)的Aggregation(會(huì)聚)/Access(訪問,如ToR)與二層網(wǎng)絡(luò)的Spine(枝干)/leaf(葉子)存在一定的對(duì)應(yīng)關(guān)系(來源:Cumulus Networks)

網(wǎng)絡(luò)設(shè)備與服務(wù)器的同源性還沒有存儲(chǔ)設(shè)備那么高,以交換機(jī)與服務(wù)器的配比,密度早不是一個(gè)級(jí)別,擴(kuò)充空間不是優(yōu)先考慮的事情。已有的幾款OCP定制交換機(jī)在外形尺寸上很常規(guī),標(biāo)準(zhǔn)RU、能裝在19英寸機(jī)架里即可,電源和風(fēng)扇的布置方式也很傳統(tǒng),有助于被企業(yè)市場(chǎng)接受。目前,OCP網(wǎng)絡(luò)硬件追求的是類似服務(wù)器的使用體驗(yàn)?zāi)酥辽芷?,包括控制平面與數(shù)據(jù)平面的高度模塊化、軟件與硬件解耦合,以實(shí)現(xiàn)定制的靈活性(DIY),避免被供應(yīng)商鎖定。

圖注:OCP網(wǎng)絡(luò)項(xiàng)目的階段性目標(biāo),先從傳統(tǒng)單片式(Monolithic)交換機(jī)到軟硬件解耦,再進(jìn)一步模塊化(來源:Facebook)

數(shù)據(jù)平面的核心是ASIC(如Broadcom)或FPGA,不乏支持40GbE的方案;控制平面的CPU可以是x86(如AMD的嵌入式SoC,或Intel Atom)、PowerPC(如Freescale多核PPC)、MIPS(如Broadcom多核MIPS)或ARM。截至2015年2月底,OCP已經(jīng)公開了6款交換機(jī)(Accton、Broadcom/Interface Masters、Mellanox和Intel各1款,Alpha Networks有2款)的設(shè)計(jì),其中的半數(shù)方案可以根據(jù)需要配置為ToR或會(huì)聚(aggregation)交換機(jī)。

軟件與硬件解耦,ONIE是關(guān)鍵,也是OCP網(wǎng)絡(luò)項(xiàng)目早期的重點(diǎn)工作。ONIE即Open Network Install Environment(開放網(wǎng)絡(luò)安裝環(huán)境),是一個(gè)定義用于裸金屬(bare metal)網(wǎng)絡(luò)交換機(jī)的開放“安裝環(huán)境”的開源項(xiàng)目。傳統(tǒng)的以太網(wǎng)交換機(jī)有預(yù)安裝的操作系統(tǒng),拿來就用,直接管理,但會(huì)鎖定用戶;所謂的白盒(white-box)網(wǎng)絡(luò)交換機(jī)提供了選擇硬件的自由,但不同的CPU架構(gòu)等導(dǎo)致異構(gòu)的管理子系統(tǒng),又給上面的網(wǎng)絡(luò)操作系統(tǒng)制造了困難。

[page]

ONIE定義了一個(gè)開源的“安裝環(huán)境”,將boot loader(引導(dǎo)裝載程序)與現(xiàn)代的Linux內(nèi)核及BusyBox相結(jié)合,提供了一個(gè)可以安裝任何網(wǎng)絡(luò)操作系統(tǒng)的環(huán)境,有助于自動(dòng)化大型數(shù)據(jù)中心的交換機(jī)(上千臺(tái))配給,讓用戶像管理Linux服務(wù)器一樣管理交換機(jī)。

上述成果的直觀體現(xiàn)就是Juniper Networks(瞻博網(wǎng)絡(luò))2014年12月初發(fā)布的OCX1100交換機(jī),在Alpha Networks SNX-60×0-486F的硬件上運(yùn)行基于Linux的Junos操作系統(tǒng),預(yù)計(jì)于2015年第一季度上市。SNX-60×0-486F是Alpha Networks公司設(shè)計(jì)的OCP交換機(jī),由一個(gè)BCM56854(Broadcom Trident Ⅱ)芯片提供48端口10G SFP+和6端口40G QSFP,CPU子系統(tǒng)為Freescale(飛思卡爾)P2020或Intel C2558,可作為ToR或會(huì)聚交換機(jī)使用。Dell(提供如Z9500-ON數(shù)據(jù)中心核心及會(huì)聚交換機(jī))與Cumulus Networks(提供CLOS)的合作也是類似的情況。

圖注:2014年6月公開的Wedge交換機(jī)硬件設(shè)計(jì),雙冗余供電單元,4個(gè)風(fēng)扇(來源:Facebook)

沒錯(cuò),F(xiàn)acebook正在向核心交換機(jī)挺進(jìn)。2014年6月,F(xiàn)acebook展示了其設(shè)計(jì)的新款ToR交換機(jī)(代號(hào)Wedge),有多達(dá)16個(gè)40GbE端口,支持Intel、AMD和ARM的CPU,配以基于Linux的操作系統(tǒng)(代號(hào)FBOSS)。

圖注:6-pack硬件平臺(tái)外觀,由于集中了PSU,Wedge交換機(jī)寬度更緊湊,兩兩并行放置(來源:Facebook)

2015年2月11日,F(xiàn)acebook宣布推出第一款開放硬件模塊化交換機(jī)“6-pack”,7RU的機(jī)箱,裝有8個(gè)基于Wedge的交換機(jī)和2個(gè)fabric卡,共6層,底下還有一層電源和風(fēng)扇。作為Facebook data center fabric的核心,6-pack將使Facebook可以組建更大規(guī)模的集群,而不是將集群分為多個(gè),并因集群間的網(wǎng)絡(luò)鏈路而限制集群的規(guī)模。

  圖注:6-pack內(nèi)部網(wǎng)絡(luò)數(shù)據(jù)路徑拓?fù)?來源:Facebook)

Wedge和6-pack都將通過OCP公開設(shè)計(jì)規(guī)范。

反哺與變局:來自傳統(tǒng)廠商的支持

2014年是OCP變動(dòng)很大的一年,盡管也遇到了一些困惑,但生態(tài)系統(tǒng)明顯壯大了起來,特別是體現(xiàn)出對(duì)傳統(tǒng)軟硬件廠商的吸引力。

1月底召開的第五屆OCP峰會(huì)上,微軟高調(diào)宣布加入OCP,風(fēng)頭明顯蓋過一同亮相的IBM、Yandex、Cumulus Networks、Box、松下、Bloomberg、IO、LSI(已被Avago收購(gòu))。相比看起來像是打入內(nèi)部探聽消息的IBM,微軟可謂誠(chéng)意十足——貢獻(xiàn)了用于全球云服務(wù)(如Windows Azure、Office 365和Bing)的開放云服務(wù)器(Open CloudServer,OCS)設(shè)計(jì)作為“投名狀”。

單論數(shù)據(jù)中心的規(guī)模,微軟應(yīng)該比Facebook和還在瘋狂趕進(jìn)度的IBM/SoftLayer(也是10萬+服務(wù)器的Tier 2互聯(lián)網(wǎng)客戶)加在一起都大,把新硬件的采購(gòu)換成OCP就已經(jīng)是天大的喜訊了,再貢獻(xiàn)一組硬件設(shè)計(jì)規(guī)范及管理軟件源碼,Staya Nedella還沒上任就大赦天下?

顯然沒那么簡(jiǎn)單,微軟也有與Facebook類似的想法。

現(xiàn)在OCP的服務(wù)器規(guī)范與設(shè)計(jì)頁面中,開放云服務(wù)器的資料列在最上面,在2014年的Engineering Workshop里也是服務(wù)器部分的宣講重頭。OCS的12U機(jī)箱為EIA 310-D 19英寸機(jī)架而設(shè)計(jì),半寬的計(jì)算和存儲(chǔ)刀片,每U兩節(jié)點(diǎn)(1U2),集中風(fēng)扇、PSU和管理單元(Chassis Manager),很不Open Rack,更像12U的天蝎1.0整機(jī)柜(下一章介紹)。如此看來,要把天蝎項(xiàng)目納入OCP,確實(shí)不是技術(shù)上的問題——只要BAT愿意……當(dāng)然是在開放數(shù)據(jù)中心委員會(huì)成立之前。

2014年10月底在巴黎召開的歐洲峰會(huì)上,公布了OCS V2規(guī)范。V2的計(jì)算刀片將CPU從V1的雙路Intel Xeon E5-2400 v2(10核/CPU)升級(jí)為最新的雙路Intel Xeon E5-2600 v3(14核/CPU,v3沒有2400),內(nèi)存隨之由12個(gè)DDR3-1333升級(jí)為16個(gè)DDR4-2133,支持的容量范圍也從64-192GB擴(kuò)至128-512GB。計(jì)算能力大為增強(qiáng),但CPU的TDP也從95W(應(yīng)為E5-2470 v2)提高到120W(應(yīng)為E5-2683 v3),因而每個(gè)刀片的能耗從不到250W增至300W或以上。

[page]

圖注:開放云服務(wù)器的機(jī)箱組件,機(jī)箱管理卡類似于天蝎整機(jī)柜的RMC,特點(diǎn)是運(yùn)行Windows Server 2012 R2,微軟已開源機(jī)箱管理軟件的代碼(來源:OCP Engineering Workshop)

所以,OCS V2的機(jī)箱也進(jìn)行了升級(jí),首先是6個(gè)PSU從1400W換成1600W,N+1配置時(shí)總?cè)萘?kW,支持24個(gè)計(jì)算刀片,N+N配置時(shí)為4.8kW。付出的代價(jià)是供電的停頓時(shí)間(hold-up time)從10毫秒倍增為20毫秒,并以新的風(fēng)扇匹配刀片的能耗。

刀片性能的提高,對(duì)I/O帶寬也提出了更高的要求,OCS V2每層托盤(Tray)的I/O從V1的雙10GbE和雙6Gb SAS(x4)升級(jí)為10/40GbE和雙12Gb SAS(x4),并增加了PCI Express 3.0 x16的夾層卡。

圖注:2011年微軟IT-PAC(IT Pre-Assembled Components,IT預(yù)組裝部件)中的服務(wù)器機(jī)架,看似是開放云服務(wù)器的前身,目測(cè)機(jī)架高度應(yīng)該在50U以上

存儲(chǔ)刀片為可容納10個(gè)3.5英寸硬盤驅(qū)動(dòng)器的JBOD,V2也是從V1的6Gb SAS升級(jí)為12Gb SAS,單就硬盤密度而言,每機(jī)架可達(dá)800個(gè)硬盤。V1 JBOD仍可用于V2機(jī)箱,每個(gè)計(jì)算刀片自帶4個(gè)3.5英寸硬盤(V1還支持2個(gè)2.5英寸SSD,V2增至4個(gè),以及8個(gè)110mm M.2 PCIe NVMe模塊)。每個(gè)計(jì)算刀片可連接1-8個(gè)JBOD,即支持14-84個(gè)硬盤。

  圖注:Facebook的PB級(jí)藍(lán)光歸檔存儲(chǔ)系統(tǒng)(來源:The Register,2014年)

第五屆OCP峰會(huì)上還展示了Facebook的藍(lán)光光盤歸檔存儲(chǔ)系統(tǒng),42U的空間內(nèi)可以容納1萬個(gè)三層100GB光盤,容量達(dá)1PB,據(jù)稱可以保存信息50年。Facebook的前輩Google使用單盤容量更大的磁帶,也有歷史因素,F(xiàn)acebook則認(rèn)為光盤代表著未來。

圖注:Google南卡Berkeley County數(shù)據(jù)中心的磁帶備份系統(tǒng),這張照片以前曾被誤傳為Google的服務(wù)器(來源:Google官網(wǎng))

從離線存儲(chǔ)的角度來看,磁帶與光盤各有千秋,短期內(nèi)難分勝負(fù)。很快見效的是,2014年3月下旬,F(xiàn)rank Frankovsky宣布離開Facebook,去做一個(gè)基于光盤的冷存儲(chǔ)初創(chuàng)公司,但以獨(dú)立身份保留在OCP基金會(huì)董事會(huì)的位置,并繼續(xù)擔(dān)任基金會(huì)主席兼總裁。董事會(huì)里必須有Facebook的代言人,于是增補(bǔ)了Facebook基礎(chǔ)設(shè)施總監(jiān)Jason Taylor,以及微軟負(fù)責(zé)云和企業(yè)業(yè)務(wù)的副總裁Bill Laing,規(guī)模擴(kuò)大到7人。

  圖注:調(diào)整后的OCP組織架構(gòu)(來源:OCP官網(wǎng))

老牌存儲(chǔ)廠商EMC在2013年1月舉辦的第四屆OCP峰會(huì)上就宣布入伙,只是風(fēng)頭被一起加入OCP的ARM壓過。因此,EMC World 2014上發(fā)布基于x86商用服務(wù)器硬件的ECS(Elastic Cloud Storage,彈性云存儲(chǔ))設(shè)備時(shí),就被問到是否與OCP有關(guān)。相比之下,EMC的子公司VMware就爽快得多,在2014年8月底舉辦的VMworld 2015上宣布加入OCP,尚處于技術(shù)預(yù)覽階段的EVO: RACK則明確表示基于OCP硬件——畢竟,VMware自身沒有硬件包袱。