毫無(wú)疑問(wèn),為了支持領(lǐng)英公司(LinkedIn)遍及世界各地的4.67億的注冊(cè)會(huì)員,該公司需要消耗大量的功率,特別是考慮到該網(wǎng)站的每名注冊(cè)成員都會(huì)獲得相當(dāng)個(gè)性化的頁(yè)面訪問(wèn)體驗(yàn):一個(gè)專屬的訪問(wèn)網(wǎng)頁(yè),而該頁(yè)面僅僅只包括他們的聯(lián)系人信息。而為這些負(fù)載提供支持的是該公司跨多處數(shù)據(jù)中心的共計(jì)約100,000臺(tái)服務(wù)器。為了進(jìn)一步詳細(xì)的了解領(lǐng)英公司是如何實(shí)現(xiàn)這一切的,最近,NetworkWorld.com網(wǎng)站的首席編輯John Dix與領(lǐng)英公司的生產(chǎn)運(yùn)營(yíng)兼IT副總裁Sonu Nayyar及其基礎(chǔ)設(shè)施工程高級(jí)總監(jiān)Zaid Ali Kahn進(jìn)行了一次深度的訪談。
圖1、領(lǐng)英公司位于俄勒岡州希爾斯伯勒縣的新數(shù)據(jù)中心
讓我們先從宏觀大局出發(fā),有請(qǐng)二位先大致談?wù)勝F公司遍及全球世界各地的數(shù)據(jù)中心吧。
圖2、LinkedIn公司生產(chǎn)運(yùn)營(yíng)兼IT副總裁Sonu Nayyar
Nayyar:在美國(guó),我們有三處主要的數(shù)據(jù)中心負(fù)責(zé)為全球的LinkedIn.com網(wǎng)站提供服務(wù),一處位于德克薩斯州的理查德森,一處位于弗吉尼亞州的Ashburn,還有一處是我們剛剛在俄勒岡州希爾斯伯勒縣最新打造的數(shù)據(jù)中心。在2016年早些時(shí)候,我們還在新加坡建立了一處較小的數(shù)據(jù)中心,其主要目的是提升我們?cè)趤喬貐^(qū)市場(chǎng)的注冊(cè)會(huì)員們的訪問(wèn)體驗(yàn)。其基本上是一套完整的數(shù)據(jù),但只適用于亞太地區(qū)的會(huì)員。所有四處數(shù)據(jù)中心都由我們的MPLS骨干和13個(gè)全球入網(wǎng)點(diǎn)(POP,point-of-presence)連接。
圖3、LinkedIn公司基礎(chǔ)設(shè)施工程高級(jí)總監(jiān)Zaid Ali Kahn
這幾處數(shù)據(jù)中心都是相似的架構(gòu)嗎?還是說(shuō)這些數(shù)據(jù)中心是在不同時(shí)期建造的,故而是一種混合呢?
Nayyar:我們有一種混合。之前,我們?cè)贏shburn建立了我們的第一處數(shù)據(jù)中心,最開(kāi)始使用的是托管的設(shè)備。顯然,該技術(shù)正逐年發(fā)展完善,現(xiàn)在,俄勒岡州的數(shù)據(jù)中心已然獲得了一套完整的升級(jí)功能。
Kahn:我們?cè)诟ゼ醽喼輸?shù)據(jù)中心的打造是我們公司開(kāi)始轉(zhuǎn)向批量模型的時(shí)候。因此,我們沒(méi)有使用諸如Equinix等公司的像零售商一樣的計(jì)算容量能力,而是租用了數(shù)據(jù)中心空間——其基本上是一個(gè)大空殼,內(nèi)置了一切內(nèi)容,包括電源、配電通道、機(jī)架等等。而且,在弗吉尼亞的數(shù)據(jù)中心建成之后,我們又在德克薩斯州興建了另一處,因?yàn)槲覀兊靡阅軌蚝芸斓膶?shí)現(xiàn)規(guī)模化。而當(dāng)我們決定興建俄勒岡州的數(shù)據(jù)中心時(shí),我們能夠退后一步,反思我們希望我們未來(lái)的數(shù)據(jù)中心到底是怎樣的。這就是我們轉(zhuǎn)換到超大規(guī)模模型的時(shí)候了。展望未來(lái),我們將把我們其他的數(shù)據(jù)中心也改造為這一新的模型。
貴公司并沒(méi)有也像其他一些網(wǎng)絡(luò)巨頭一樣,在構(gòu)建你們自己的服務(wù)器,對(duì)吧?
Kahn:是的,我們正在使用獨(dú)立的機(jī)架式服務(wù)器。我們與OEM供應(yīng)廠商密切合作,以確保它們滿足并符合我們的性能規(guī)格等要求。我們是思科UCS的第一批大用戶之一,但我們已經(jīng)開(kāi)始更多地轉(zhuǎn)向Supermicro商用硬件了。
這些數(shù)據(jù)中心是否也支持您企業(yè)的業(yè)務(wù)需求?
Nayyar: 我們有一個(gè)混合的模式。我們?cè)诩永D醽喼莸氖タ死幸粋€(gè)小型的數(shù)據(jù)中心,在該數(shù)據(jù)中心有我們的企業(yè)數(shù)據(jù)中心資源,包括人力資源、財(cái)務(wù)、開(kāi)發(fā)、預(yù)備生產(chǎn)等——但我們也興建了俄勒岡州的數(shù)據(jù)中心,以便使得我們可以使用安全區(qū)域,以便從任何數(shù)據(jù)中心都能夠支持企業(yè)的這些需要。
面向客戶的LinkedIn應(yīng)用程序是什么樣的?
Nayyar:我們的應(yīng)用程序是很復(fù)雜的。因此,數(shù)據(jù)中心中的所有內(nèi)容都是為了支持在您訪問(wèn)LinkedIn.com網(wǎng)站時(shí)所呈現(xiàn)的頁(yè)面。你可以想象,每位注冊(cè)會(huì)員訪問(wèn)我們網(wǎng)站時(shí)采用的是不同的連接,而且,每個(gè)會(huì)員所看到的頁(yè)面也都是高度定制化的,而生成每個(gè)定制化的頁(yè)面會(huì)在我們的數(shù)據(jù)中心產(chǎn)生海量東西走向的流量。而隨著海量計(jì)算負(fù)載的繼續(xù)。對(duì)于進(jìn)入我們的企業(yè)網(wǎng)絡(luò)的每個(gè)字節(jié)的數(shù)據(jù),我們都會(huì)100倍的由東向西生成頁(yè)面。
Wow。真是不簡(jiǎn)單呢!
Nayyar:通過(guò)我們的應(yīng)用程序,一切都實(shí)現(xiàn)了連接。當(dāng)然,我們網(wǎng)站的一些部分是獨(dú)立的,如招聘人員有不同的界面。但對(duì)于一般性的消費(fèi)者成員,LinkedIn.com都是連接的。
Kahn:我們有多種產(chǎn)品和數(shù)千種服務(wù)。你可能聽(tīng)說(shuō)過(guò)Rest.Li框架,這是我們談?wù)摰米疃嗟木W(wǎng)關(guān)集成之一,當(dāng)這些東西進(jìn)行通信時(shí),最終還是歸結(jié)為大量的數(shù)據(jù)在數(shù)據(jù)中心之間遷移。
圖4、具備LinkedIn公司的超高密度數(shù)據(jù)中心設(shè)計(jì)的服務(wù)器行
每處數(shù)據(jù)中心是否支持相同的負(fù)載還是各自分配不同的職責(zé)呢?
Nayyar:任何一處數(shù)據(jù)中心站點(diǎn)都可以為流量提供服務(wù)。如果某處數(shù)據(jù)中心發(fā)生故障,我們只需將流量路由傳輸?shù)搅硪粋€(gè)站點(diǎn)。在我們的100Gbps MPLS骨干網(wǎng)上,所有數(shù)據(jù)中心之間正在進(jìn)行著實(shí)時(shí)的復(fù)制。他們都服務(wù)于同樣的工作負(fù)載,這便是我們?nèi)绾翁岣呶覀兊目捎眯缘拿卦E所在。如果在某一處站點(diǎn)發(fā)生中斷,無(wú)論其是一個(gè)bug、網(wǎng)絡(luò)問(wèn)題、電源問(wèn)題、甚至不好的變化,我們均可以輕松地在五分鐘內(nèi)將相應(yīng)的流量導(dǎo)出。所有這些數(shù)據(jù)中心一起工作,服務(wù)于LinkedIn.com網(wǎng)站。
貴公司的服務(wù)是否是按照不同的地理區(qū)域來(lái)劃分的?
Kahn:是的。我們是Anycast(其具備從網(wǎng)絡(luò)中的多個(gè)點(diǎn)推廣一個(gè)IP地址的能力)的重度用戶,這意味著我們可以將我們的成員路由傳輸?shù)阶罱咏腜OP。
Nayyar:我們?cè)噲D找出哪個(gè)國(guó)家地區(qū)的哪一部分的用戶的流量需求應(yīng)該被路由傳輸?shù)侥睦?,并將其路由傳輸?shù)阶罱腜OP。 POP是小規(guī)模的數(shù)據(jù)中心,主要是網(wǎng)絡(luò)設(shè)備和代理服務(wù)器,它們充當(dāng)了用戶的TCP連接請(qǐng)求的終端。
Kahn:我們根據(jù)注冊(cè)會(huì)員的訪問(wèn)體驗(yàn)來(lái)選擇POP的位置。我們知道在哪些地區(qū)面臨相應(yīng)的挑戰(zhàn)。我們有一個(gè)用于進(jìn)行預(yù)測(cè)分析的數(shù)據(jù)科學(xué)模型,其顯示:如果我們?cè)诎拇罄麃喭斗乓粋€(gè)POP,那么頁(yè)面加載時(shí)間將提高X%。然后,我們必須在這些地理區(qū)域構(gòu)建POP,并將它們綁定到我們的數(shù)據(jù)中心。所有的繁重的頁(yè)面處理是在POP進(jìn)行的,然后有后端數(shù)據(jù)連接,但POP有助于使頁(yè)面的加載時(shí)間更快。通過(guò)在亞洲市場(chǎng)僅僅投放一個(gè)POP,我們就已經(jīng)看到,網(wǎng)頁(yè)加載速度提高了25%。
Nayyar:我們?cè)谌蚍秶鷥?nèi)密切監(jiān)控我們的站點(diǎn)速度,我們一直在尋求如何不斷的改善。無(wú)論是通過(guò)改善網(wǎng)絡(luò)還是繼續(xù)改進(jìn)應(yīng)用程序,頁(yè)面的負(fù)載或數(shù)據(jù)中心內(nèi)部架構(gòu),減少構(gòu)建該頁(yè)面所需的時(shí)間,并盡快的將其呈現(xiàn)給我們的注冊(cè)會(huì)員。
好吧,現(xiàn)在讓我們把焦點(diǎn)聚焦到貴公司最新的俄勒岡數(shù)據(jù)中心,其在2016年十一月正式建成投產(chǎn)。 那么其到底有何不同呢?
Kahn:在計(jì)算方面,該數(shù)據(jù)中心更為密集。通常,數(shù)據(jù)中心每臺(tái)機(jī)架為7-9千瓦。我們并不擁有這些設(shè)施,所以我們想通過(guò)將更多的服務(wù)器打包到機(jī)架中來(lái)優(yōu)化空間。我們可以做到每臺(tái)機(jī)架超過(guò)14千瓦。但是使用密集計(jì)算,你可以想象,會(huì)產(chǎn)生很多熱量,所以我們必須弄清楚如何以創(chuàng)新的方法實(shí)現(xiàn)數(shù)據(jù)中心冷卻系統(tǒng)的設(shè)計(jì)。最終,我們選擇了后門(mén)熱交換。我們是第一批在機(jī)架上進(jìn)行基于水的冷卻的企業(yè)之一。顯然,這會(huì)涉及到一定的資本支出(CapEx)費(fèi)用,但隨著時(shí)間的推移,我們所消耗的能源功率將大幅減少。
這么說(shuō)貴公司是通過(guò)機(jī)架在抽水?
Nayyar:我們基本上在外部預(yù)冷卻水,并通過(guò)這些后門(mén)進(jìn)行熱交換器循環(huán),這中和了機(jī)架上的熱空氣,所以無(wú)需冷空氣/熱空氣通道的密封遏制。
圖5、LinkedIn公司位于俄勒岡州希爾斯伯勒的數(shù)據(jù)中心采用后門(mén)熱交換器技術(shù)的服務(wù)器機(jī)架行
圍繞所有這些系統(tǒng)的泵水,是否存在任何值得特別關(guān)注的方面呢?
Nayyar:這是我們所關(guān)注的方面之一便是技術(shù),但我們對(duì)其進(jìn)行了徹底的測(cè)試,該款設(shè)計(jì)真的是非常強(qiáng)大。我們也有相當(dāng)多的監(jiān)控,所以我們知道是否有任何泄漏,但現(xiàn)在還不足以需要我們的特別關(guān)注。
使用外部空氣來(lái)冷卻水資源必須相當(dāng)高效。貴公司希望在俄勒岡數(shù)據(jù)中心實(shí)現(xiàn)怎樣的PUE(電源使用效率)呢?
Nayyar: 俄勒岡州數(shù)據(jù)中心的PUE是1.06。值得一提的是,我們企業(yè)的目標(biāo)是在未來(lái)100%的使用可持續(xù)能源。顯然,我們目前還沒(méi)有實(shí)現(xiàn)這一目標(biāo),但我們正在朝著這一方向努力,這也是為什么我們?cè)诙砝諏葸x擇Infomart的原因的一部分,因?yàn)樗麄兡軌蛑苯荧@得可再生能源。
讓我們來(lái)談?wù)勝F公司在網(wǎng)絡(luò)方面所做的創(chuàng)新性的工作吧。據(jù)我了解,正如貴公司在你們的Altair設(shè)計(jì)項(xiàng)目文檔中所介紹的那樣,貴公司的每一臺(tái)機(jī)架都有一個(gè)頂級(jí)機(jī)架式交換機(jī),而其可以與多結(jié)構(gòu)設(shè)備裝置進(jìn)行通信。
Kahn:是的。Altair設(shè)計(jì)是一款大的架構(gòu)解決方案。您可以將其想象為是一個(gè)大的平面網(wǎng)絡(luò)。沒(méi)有核心,沒(méi)有機(jī)箱。假設(shè)您正在使用傳統(tǒng)的企業(yè)模式構(gòu)建100,000多臺(tái)服務(wù)器。從一臺(tái)個(gè)服務(wù)器到另一臺(tái)服務(wù)器的數(shù)據(jù)包最終將需要通過(guò)25到30個(gè)芯片組,從而會(huì)在兩臺(tái)服務(wù)器之間產(chǎn)生毫秒級(jí)的延遲。而我們所做的就是使用一款五級(jí)Clos架構(gòu)(脊柱和葉片設(shè)計(jì))將服務(wù)器到服務(wù)器的通信減少到少于五個(gè)芯片組,并將我們?cè)趦膳_(tái)服務(wù)器之間的切換延遲減少到幾微秒。 (參見(jiàn)下圖6)。
圖6、Altair項(xiàng)目
所以,在我們的脊柱和葉拓?fù)浣Y(jié)構(gòu)中,一切都被分解為不同的階段。每個(gè)機(jī)架頂部有四條路徑,上至四個(gè)不同的脊柱,而這四個(gè)脊柱又與在其之上的脊柱通過(guò)多條路徑通信,所以所有這些脊柱交換機(jī)成為一個(gè)大的結(jié)構(gòu)。每個(gè)機(jī)架頂交換機(jī)具有四個(gè)或更多個(gè)路徑,以使用等成本的多路徑(ECMP)。 (參見(jiàn)下圖7)。
圖7、Altair項(xiàng)目
機(jī)架頂部和脊柱交換機(jī)是否類似?
Kahn:是的,他們實(shí)際上是一樣的。我們已經(jīng)采用了一個(gè)單一的SKU模型,這意味著我們只需要購(gòu)買(mǎi)一種類型的交換機(jī),一款U設(shè)備。
貴公司是否是從同一家供應(yīng)商處采購(gòu)所有的交換機(jī)的呢?
Kahn:不,其是一個(gè)平臺(tái)。它們都具備相同的設(shè)計(jì)和相同的芯片組。對(duì)于一個(gè)SKU。你可以有多家供應(yīng)商,但卻是同一個(gè)平臺(tái)。我們使用一個(gè)Tomahawk的芯片組,其是32x100G端口,3.2Tbps。我們?yōu)槊颗_(tái)服務(wù)器帶來(lái)了50Gbps,這是不同的。我們相信,我們是最先以這種方式進(jìn)行實(shí)際部署的企業(yè),即:每臺(tái)服務(wù)器可以有10G,25G或50G,在未來(lái),甚至可達(dá)到100Gbps的路徑。在接下來(lái)的四年或更長(zhǎng)時(shí)間里,我們都會(huì)有未來(lái)驗(yàn)證。
所有的脊柱是100Gbps,而脊柱之間的訂閱是一對(duì)一的。所以,如果你發(fā)送100Gbps,你總是會(huì)得到100Gbps的輸出。到機(jī)架頂部,我們帶來(lái)50Gbps,我們通過(guò)使用PSM4標(biāo)準(zhǔn)做到這一點(diǎn),所以我們可以采用兩個(gè)100Gbps端口,并將其分為四個(gè)50Gbps端口,帶來(lái)有效的可用機(jī)柜帶寬為200Gb / s。
我在貴公司的一些文檔中讀到頂層機(jī)架不是冗余的,這意味著您可以承受整個(gè)機(jī)柜的損失,這是否是因?yàn)橐磺卸荚诜?wù)器之間復(fù)制的呢?
Kahn:沒(méi)錯(cuò),并且這種復(fù)制是跨數(shù)據(jù)中心的。這是關(guān)乎故障域的分布和簡(jiǎn)化基礎(chǔ)設(shè)施的。在這個(gè)規(guī)模上,這些應(yīng)用程序具有足夠的容錯(cuò)能力,我們可以承受整個(gè)機(jī)柜的損失,而且只需跨數(shù)據(jù)中心或在數(shù)據(jù)中心內(nèi)進(jìn)行故障轉(zhuǎn)移即可。
貴公司是在機(jī)架式交換機(jī)中運(yùn)行自己的代碼,我這樣的理解對(duì)嗎?
Kahn:其中一些是這樣的。我們采用的是OEM(原始設(shè)備制造商)和ODM(原始設(shè)計(jì)制造商)的組合。 OEM將是像思科這樣的提供商,或者其他供應(yīng)商。然后我們還有ODM供應(yīng)商,我們?cè)谄渲线\(yùn)行我們自己的代碼,我們正在慢慢采用這一模式,因?yàn)槲覀冋诮⑿碌臋C(jī)柜和一組新的數(shù)據(jù)庫(kù)。
為什么要開(kāi)發(fā)你們自己的代碼呢?
Kahn:我們有我們想要控制的非常具體的事務(wù)。我們想要關(guān)注于我們?nèi)绾喂芾砦覀兊募軜?gòu)。我們的目標(biāo)不是建立世界上最好的網(wǎng)絡(luò)操作系統(tǒng)。這不是我們的目標(biāo)。我們的目標(biāo)是在管理我們的架構(gòu)網(wǎng)絡(luò)的控制平面之上構(gòu)建應(yīng)用程序。
例如,我們想從交換機(jī)本身進(jìn)行流傳輸遙測(cè),并將其上傳到機(jī)器學(xué)習(xí)的平臺(tái),然后使用它來(lái)找出如何智能地路由傳輸流量,找到性能瓶頸,以便更好地操作網(wǎng)絡(luò)。這就是我們的目標(biāo)。在內(nèi)部,我們稱之為可編程的數(shù)據(jù)中心。我們想更多地了解網(wǎng)絡(luò)的應(yīng)用程序級(jí)別,并優(yōu)化數(shù)據(jù)中心內(nèi)的流量。
好的。那么,貴公司是否同時(shí)支持IPv4和IPv6呢,你們的目標(biāo)是否是全面遷移到IPv6呢?
Kahn:是的。我們?cè)贗Pv6方面非?;钴S。幾年前,我們?cè)贗Pv6上推出了www.linkedin.com,以解決IPv4地址不可避免的枯竭問(wèn)題。我們決定首先解決這個(gè)問(wèn)題,所以我們可以解決發(fā)送僅IPv6流量的市場(chǎng)。我們已經(jīng)看到了IPv6在移動(dòng)流量方面的高速增長(zhǎng),以及一些性能方面的提升。最近,隨著我們的規(guī)?;瘮U(kuò)展,我們開(kāi)始關(guān)注數(shù)據(jù)中心內(nèi)的IPv6。我們將很快在我們的數(shù)據(jù)中心內(nèi)用盡IPv4,所以我們決定雙棧IPv4和IPv6,目標(biāo)是最終我們將在未來(lái)幾年內(nèi)只使用IPv6。
貴公司數(shù)據(jù)中心的總?cè)萘渴嵌嗌?您預(yù)計(jì)未來(lái)的增長(zhǎng)情況如何,尤其是在貴公司被微軟收購(gòu)之后?
Nayyar:如果將我們企業(yè)的數(shù)據(jù)中心包括在內(nèi),我認(rèn)為我們的總?cè)萘拷咏?0兆瓦。我們?cè)?017年將增加更多的容量。這已經(jīng)被寫(xiě)入到我們的計(jì)劃之中了。我們還不確定與微軟的集成整合將如何影響到數(shù)據(jù)中心容量的使用。這筆收購(gòu)交易剛剛結(jié)束,所以我們才剛剛開(kāi)始尋找我們?nèi)绾文軌蛞黄鸸ぷ鳌,F(xiàn)在我們的計(jì)劃是實(shí)現(xiàn)有機(jī)的增長(zhǎng),但我們必須冷靜的看待事態(tài)的發(fā)展。
好的,我想上述問(wèn)題就是我最為關(guān)注想要問(wèn)的了,您還有什么需要補(bǔ)充的嗎?
Nayyar:有一件事是需要補(bǔ)充的。我們的理念一直是:無(wú)論其是否會(huì)有意義,我們要回報(bào)客戶,并開(kāi)源我們一直在努力的項(xiàng)目。前面我們提到的交換機(jī)遙測(cè),這是我們所構(gòu)建的一個(gè)非常可擴(kuò)展的、快速的、可復(fù)制的流應(yīng)用程序,一個(gè)消息管道。我們將對(duì)其開(kāi)源,是基于如下幾個(gè)原因。
顯然,如果我們開(kāi)源了我們的項(xiàng)目,其他人可以從中受益,但我們也相信這其中會(huì)涉及到相關(guān)的商業(yè)利益。而我們將其開(kāi)源的原因之一是希望能夠讓更多的人共享回饋,這帶來(lái)了改善;其二是我們相信這有助于我們的工程師的技術(shù)的提高,因?yàn)楫?dāng)他們的工作代碼正在被數(shù)百萬(wàn)的同行參考借鑒時(shí),有助于促進(jìn)他們做得更好,他們能夠?qū)懗龈鼉?yōu)秀的代碼,因?yàn)樗麄兊拿志驮谒厦妗?/p>
Nayyar:我們有一個(gè)名為Open19的開(kāi)放硬件計(jì)劃,其在業(yè)界已經(jīng)產(chǎn)生了一定的影響,而在明年,相信你會(huì)看到更多在這方面的突破。我們決定為您的服務(wù)器,存儲(chǔ)和網(wǎng)絡(luò)創(chuàng)建一個(gè)19英寸機(jī)架環(huán)境的開(kāi)放標(biāo)準(zhǔn)。其目標(biāo)是將通用組件減少50%。機(jī)架中的一切都需要電源和網(wǎng)絡(luò),因此我們正在將機(jī)架內(nèi)常見(jiàn)的50%的組件的任何內(nèi)容實(shí)施合并。
除了節(jié)省大量的資本支出(CapEx)之外,Open19計(jì)劃還可以幫助您企業(yè)將機(jī)架整合的速度提高2-3倍。如果您企業(yè)有共享的電源模塊,共享的網(wǎng)絡(luò)組件,您企業(yè)將不會(huì)再有凌亂的線纜了。我們簽約了很多OEM和ODM供應(yīng)商,因?yàn)樗麄兡軌虮A羲麄兊闹R(shí)產(chǎn)權(quán),但是,通過(guò)遵守這個(gè)標(biāo)準(zhǔn),他們又可以在未來(lái)保持很大的靈活性。
我們正在打造一個(gè)聯(lián)盟,而LinkedIn公司正是該聯(lián)盟的領(lǐng)導(dǎo)者之一。我們正在與其他企業(yè)進(jìn)行戰(zhàn)略合作,其理念是聯(lián)盟成員將齊聚一堂,然后我們將共同開(kāi)發(fā)設(shè)計(jì),并向前推進(jìn)。