Facebook:一種創(chuàng)新數(shù)據(jù)中心網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

責(zé)任編輯:editor005

作者:布加迪編譯

2015-01-26 13:57:39

摘自:51CTO.com

Facebook的數(shù)據(jù)中心每天要收到多達(dá)數(shù)十億次的用戶請求;隨著這家公司不斷添加成員,推出新的功能特性,請求數(shù)量在不斷增加。“每只架頂式交換目前有4條40G上行鏈路,為用10G連接的服務(wù)器機架提供了總共160G的帶寬容量。

Facebook的數(shù)據(jù)中心每天要收到多達(dá)數(shù)十億次的用戶請求;隨著這家公司不斷添加成員,推出新的功能特性,請求數(shù)量在不斷增加。這一切對Facebook來說基本上是好事,可是對Facebook的網(wǎng)絡(luò)工作人員來說卻是個挑戰(zhàn)。比如說,五個月前還能滿足要求的數(shù)據(jù)中心拓?fù)浣Y(jié)構(gòu)現(xiàn)在已不堪重負(fù)了。


  所以除了構(gòu)建大型數(shù)據(jù)中心(比如位于衣阿華州阿爾圖納的這個數(shù)據(jù)中心)外,F(xiàn)acebook的工程師們還在不斷優(yōu)化數(shù)據(jù)中心的網(wǎng)絡(luò)設(shè)計。話雖如此,用調(diào)整和改動來形容工程師們提出并在阿爾圖納數(shù)據(jù)中心落實的的設(shè)想想法可能并不恰當(dāng),更像是他們重新編寫了網(wǎng)絡(luò)設(shè)計指南。

  舊的Facebook網(wǎng)絡(luò)

  在阿爾圖納數(shù)據(jù)中心興建之前,F(xiàn)acebook的工程師們將數(shù)據(jù)中心的服務(wù)器機架排列成集群,類似圖A中所示的架構(gòu)。在實際環(huán)境中,F(xiàn)acebook不是只有三個機架,而是會有數(shù)百個機架。另外該圖還顯示了每個機架的架頂式(TOR)交換機,架頂式交換機在服務(wù)器和上游聚合交換機之間充當(dāng)中介。

  


  圖A:架頂式(TOR)――網(wǎng)絡(luò)連接架構(gòu)

  這種架構(gòu)很管用,但是卻給Facebook的工程師們出了幾道難題。Facebook的網(wǎng)絡(luò)工程師Alexey Andreyev解釋:“首先,集群的大小受到集群交換機端口密度的限制。想建造最龐大的集群,我們就需要最龐大的網(wǎng)絡(luò)設(shè)備,而那種設(shè)備只有一批數(shù)量有限的廠商才有售。另外,一個設(shè)備中需要這么多的端口與提供帶寬最高的基礎(chǔ)設(shè)施這種愿望相悖。更為困難的是,如何在集群大小、機架帶寬和集群外面的帶寬之間保持長期的最佳平衡。”

  Fabric:新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

  工程師們將每天那些數(shù)十億次請求視作一種激勵,決定擯棄復(fù)雜的、很耗帶寬的自上而下的網(wǎng)絡(luò)層次體系,改而換成一種新的設(shè)計,名為Fabric。圖B中的幻燈片描述了新的服務(wù)器機架集群,名為pod。單單一個pod包括48個機架和架頂式交換機,架頂式交換機相互連成四只fabric交換機。“每只架頂式交換目前有4條40G上行鏈路,為用10G連接的服務(wù)器機架提供了總共160G的帶寬容量。”

  


  圖B

  這種設(shè)計方法具有下列優(yōu)點:

  易于部署擁有48個節(jié)點的pod

  可擴(kuò)展性得到了簡化,而且沒有限制

  每個pod都一模一樣,都使用同樣的連接

  下一步是連接所有fabric交換機――圖C中的幻燈片描述了這項任務(wù)是如何完成的。Andreyev表示,這個比較簡單(難以想象它曾經(jīng)是什么樣子)。

  


  圖C

  Andreyev解釋,F(xiàn)acebook的工程師們在增添主干交換機時恪守48個節(jié)點這一原則。“為了實施覆蓋整個大樓的連接,我們建立了主干交換機組成的四個獨立‘平面’,每個平面里面最多可以擴(kuò)展到48個獨立設(shè)備。每個pod的每只fabric交換機都連接到本地平面里面的每只主干交換機。”

  Andreyev接下來提到的數(shù)字大得驚人。“pod和平面共同組成了一個模塊化網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),它能夠容納數(shù)十萬臺用10G連接的服務(wù)器,可擴(kuò)展到數(shù)千萬億位的等分帶寬,為我們的數(shù)據(jù)中心大樓提供非超額訂購的機架到機架性能。”

  網(wǎng)絡(luò)運營

  從架頂式交換機到網(wǎng)絡(luò)的邊緣,F(xiàn)abric網(wǎng)絡(luò)設(shè)計統(tǒng)一使用“第3層”技術(shù),支持IPv4和IPv6,并且使用等成本多路徑(ECMP)路由。Andreyev補充說:“為了防止偶爾出現(xiàn)的‘長流’(elephant traffic)大量占用帶寬,導(dǎo)致端到端路徑性能下降,我們讓網(wǎng)絡(luò)具有多種速度――所有交換機之間使用40G鏈路,同時通過架頂式交換機上的10G端口來連接服務(wù)器。我們還有服務(wù)器端機制,以便萬一出現(xiàn)問題,可以繞過故障處。”

  物理布局

  Andreyev寫道,圖D中所示的新大樓布局與Facebook之前的設(shè)計區(qū)別不是很大。一個區(qū)別是,將Fabric新的主干交換機和邊緣交換機放置在數(shù)據(jù)大廳X和數(shù)據(jù)大廳Y之間的第一層,并讓通向外界的網(wǎng)絡(luò)連接(最小入口點,即MPOE)跨越主干交換機和邊緣交換機時代。
 


  圖D

  克服挑戰(zhàn)
 

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號