2016 CCS企業(yè)云計(jì)算高峰論壇(ccs.d1net.com)于6月15日在北京國際會(huì)議中心盛大舉行,這是國內(nèi)面向政企客戶的最重要的一個(gè)云計(jì)算會(huì)展。CCS企業(yè)云計(jì)算高峰論壇上,云與大型企業(yè)的兼容性將成為主要議題。
以下是現(xiàn)場(chǎng)速遞。(聲明:本稿件來源為現(xiàn)場(chǎng)速記,可能有筆誤和別字,僅供參考)
主持人:感謝張主任的精彩分享,下面有請(qǐng)Mellanox亞太市場(chǎng)開發(fā)經(jīng)理羅云飛為我們分享“創(chuàng)新網(wǎng)絡(luò)構(gòu)建高效云計(jì)算平臺(tái)”,掌聲有請(qǐng)!
Mellanox亞太區(qū)市場(chǎng)開發(fā)經(jīng)理 羅云飛
羅云飛:大家好,我是來自Mellanox公司,我們是一家網(wǎng)絡(luò)的廠商,是一家以色列公司,在美國上市,在中國我們也是經(jīng)營了十多年的時(shí)間了。Mellanox的網(wǎng)絡(luò)它的特點(diǎn)是什么?我們其實(shí)主打的就是高帶寬、低延遲網(wǎng)絡(luò),針對(duì)云計(jì)算我們有很多虛擬化和云計(jì)算加速的技術(shù)。所以我們?cè)趪鴥?nèi)跟很多云計(jì)算的合作伙伴,包括用戶都有很多成功的案例。
說到網(wǎng)絡(luò),大家會(huì)首先想,我們這個(gè)數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬現(xiàn)在是一個(gè)什么樣的水平?千兆網(wǎng)絡(luò)毫無疑問已經(jīng)是退出了,千兆網(wǎng)絡(luò)其實(shí)現(xiàn)在只是用來做一個(gè)管理網(wǎng)會(huì)用的比較多。那么,其實(shí)如果我們?nèi)フ勗朴?jì)算,云計(jì)算最基本的一個(gè)基礎(chǔ)設(shè)施都是要做到萬兆,也就是10G這樣的一些帶寬,并且現(xiàn)在很多用戶考慮上更高的帶寬,比如40G,甚至也有到56G等等這樣一些。Mellanox的優(yōu)勢(shì)在于我們是去做高帶寬、低延遲網(wǎng)絡(luò)互聯(lián),幫助我們提升云計(jì)算的技術(shù),包括虛擬化加速的一些技術(shù)。
首先給大家介紹我們的一個(gè)產(chǎn)品,這張圖可以看的非常清楚,我們做的是端到端的InfiniBand和以太網(wǎng)的互聯(lián)。Mellanox在全球的InfiniBand市場(chǎng)份額95%以上,基本上是一家獨(dú)大。以太網(wǎng)的產(chǎn)品線我們也有,而且最下面我們做到10G,就是咱們講的萬兆,25G、40G、50G、100G,現(xiàn)在全面發(fā)售,全面在交貨。所謂端到端,就是我們的產(chǎn)品涵蓋了包括芯片、網(wǎng)卡、交換機(jī)、線纜、軟件,還有一些原生通信的方案,全套的都有,我們是業(yè)界唯一的一家做端到端的網(wǎng)絡(luò)的廠商,因?yàn)樽鼍W(wǎng)絡(luò)的廠商很多,交換機(jī)、網(wǎng)卡都有很多的廠商。Mellanox的網(wǎng)卡我們的芯片全部是自己的芯片,不依賴與任何上游的廠商,這是業(yè)界唯一的一家這樣的一個(gè)公司。我們其實(shí)更可靠的說,我們是一家芯片的廠商,其實(shí)有很多國內(nèi)的一些大的OEM是用我們的芯片自己去做系統(tǒng),去OEM我們的芯片。
那么,從2015年下半年開始,Mellanox全面交付了100G,100G的概念是什么?一個(gè)端口里面跑10萬兆的帶寬,非常高的帶寬,外面有我們的展臺(tái),也有一些設(shè)備,它的帶寬非常高,基本上是傳統(tǒng)的萬兆網(wǎng)絡(luò)的10倍了。包括基于ConnectX.4芯片的網(wǎng)卡,包括基于Switch IB InfiniBand的交換機(jī),還有Spectrum交換機(jī),還有LinkX。比如ConnectX.4網(wǎng)卡延遲只有700納秒,0.7微妙,包轉(zhuǎn)發(fā)可以達(dá)到150萬的速度。Spectrum交換機(jī),32個(gè)端口,每個(gè)端口都是100G,里面只有一個(gè)芯片來支撐。所以,性能非常的強(qiáng)勁。我們的研發(fā)能力在業(yè)界是數(shù)一數(shù)二的,這是100G。
另外,大家有沒有聽說過,現(xiàn)在在企業(yè)數(shù)據(jù)中心和云計(jì)算里面很多人都在所謂25G。25G是一個(gè)什么概念?如果從數(shù)據(jù)中心的演變來說,可能大家會(huì)說,我的速度是10G,40G,再到100G。但是,很多用戶他會(huì)說,40G太貴,確實(shí),40G相對(duì)10G來說價(jià)格會(huì)很高。所以,Mellanox我們跟下面這些合作廠商成立了25G的聯(lián)盟,我們認(rèn)為25G會(huì)是一個(gè)比較熱門的網(wǎng)絡(luò)的一個(gè)速度,因?yàn)樗鄬?duì)10G來講延遲更低,比40G有更好的性價(jià)比。所以我們把25G作為我們助推的方向,我們認(rèn)為25G會(huì)成為服務(wù)器上僅次于10G,僅次于萬兆的第二大網(wǎng)絡(luò)接口。所以,其實(shí)現(xiàn)在包括國內(nèi)的一些云計(jì)算廠商,甚至我們的BAT他們都在去驗(yàn)證我們的25G的解決方案,甚至也有一些也是在OEM我們的芯片,自己去做25G的交換機(jī)和網(wǎng)卡,比如百度、比如阿里巴巴,他們都在跟我們做合作。
25G的交換機(jī)我們的芯片叫Spectrum,它的性能是一個(gè)國際性的測(cè)試的組織,叫Test report,跟國際的另外一個(gè)大廠他們交換機(jī)的芯片是很高的市場(chǎng)份額,跟他們100各的芯片叫Tomahawk他們的一個(gè)對(duì)比。Mellanox我們就做高性能,主打性能,比如我們的丟包,不管多大的數(shù)據(jù)包括發(fā)送都沒有丟表,延遲始終維持在0.3微秒的水平,我們功耗很低,轉(zhuǎn)發(fā)率很高,這都是我們的一些特點(diǎn)。
對(duì)于云計(jì)算來講都要做到開放,Mellanox的交換機(jī),我們不僅可以跑Mellanox自己的交換機(jī)操作系統(tǒng),也可以跑其他的網(wǎng)絡(luò)系統(tǒng),比如百度OS,百度的操作系統(tǒng)也可以跑在我們的交換機(jī)上。比如Cumulus是一家美國的公司,專門做網(wǎng)絡(luò)操作系統(tǒng),它的特點(diǎn)就是基于Linux的網(wǎng)絡(luò)的交換機(jī)操作系統(tǒng),也就是說只要咱們的管理員熟悉Linux就可以非常非常簡單的去操作這個(gè)Cumulus。不像有一些廠商的交換機(jī)是一些私有的協(xié)議的操作,非常復(fù)雜,很多情況要一些手冊(cè)。所以,我們的交換機(jī)也可以跑Cumulus Linux,所以我們始終在擁抱開放,去推動(dòng)開放。
我們產(chǎn)品的一個(gè)很重要的技術(shù)就是RDMA的加速,RDMA是遠(yuǎn)程內(nèi)存直接訪問。它的意思是說,你的設(shè)備,你的硬件,也就是你的網(wǎng)卡可以直接訪問你的內(nèi)存,而繞過了CPU和系統(tǒng)內(nèi)核。就是我把內(nèi)核旁路掉,這樣不需要把數(shù)據(jù)再從用戶態(tài)拷貝到內(nèi)核態(tài)。它的好處什么?它的好處就是我釋放CPU,減少了網(wǎng)絡(luò)的CPU消耗,如果你的I/O負(fù)載很高的時(shí)候,你可能會(huì)因?yàn)榫W(wǎng)絡(luò)傳輸消耗掉很多的CPU。所以,第一釋放CPU。第二,因?yàn)槔@過CPU的內(nèi)核,所以延遲很低。我們低延遲就是這么來的。RDMA可以顯著的把我們的延遲降低下來。
我們經(jīng)常用的iSCSI,ESXi對(duì)比iSCSI性能怎么樣?ESXi在很多云計(jì)算廠商都獲得他們的認(rèn)可。iSCSI其實(shí)TCP/IP,我做ESXi,就是RDMA以后帶寬有10倍的提升,所以這就是RDMA加速的效果。Mellanox我們公司所有的網(wǎng)卡都全面支持RDMA去部署存儲(chǔ)的性能,對(duì)存儲(chǔ)的性能進(jìn)行優(yōu)化。
這里有一個(gè)例子,是通過iSCSI訪問存儲(chǔ),在計(jì)算節(jié)點(diǎn)部署VDI,它的VDI的性能,如果從TCP/IP升級(jí)到RDMA之后,TCP/IP可能萬兆網(wǎng)絡(luò)里面只能部署60個(gè)虛擬桌面,但是如果做到iSCSI之后訪問存儲(chǔ),單節(jié)點(diǎn)可以達(dá)到140個(gè)。一方面釋放CPU,處理能力變強(qiáng)了,另外延遲很低,所以吞吐量也能上去。
云計(jì)算里的虛擬化,我們很多廠商會(huì)用的一個(gè)技術(shù)叫做SR-IOV。就是硬件直通的技術(shù)。Mellanox的網(wǎng)卡我們可以很好的支持SR-IOV技術(shù),我在網(wǎng)卡里面內(nèi)置了一個(gè)嵌入式的交換機(jī),可以幫助它進(jìn)行優(yōu)化。
另外一個(gè)技術(shù),Overlay Networks,特點(diǎn)就是把虛擬網(wǎng)絡(luò)潛逃到物理網(wǎng)絡(luò)里面發(fā)送出去。但是,帶來的一個(gè)問題就是VXLay(音譯)也好,NVGRE也好,它的技術(shù)涉及到數(shù)據(jù)包的封裝、解壓、聚合等等會(huì)消耗大量的CPU,系統(tǒng)性能會(huì)明顯的下降,這怎么辦?我們Mellanox提出的方案也是硬件卸載,其實(shí)說白了就是讓我們的網(wǎng)卡硬件幫助CPU去分擔(dān)更多的你的負(fù)載。所以,我們把Overlay Networks這些數(shù)據(jù)包的處理操作全部卸載到網(wǎng)卡上,讓網(wǎng)卡完成這部分工作。這樣就可以把CPU釋放出來,你的系統(tǒng)性能有一個(gè)很明顯的提升。
右邊這張圖,這里面跑40G的網(wǎng)絡(luò),就是4萬兆,藍(lán)色的表示采用VXLay,但是通過消耗你的CPU進(jìn)行處理。所以,帶寬40G跑到10G就上不去了,原因在于系統(tǒng)的CPU被消耗殆盡,所以你的貸款也上不去。但是,如果紫色的這個(gè)是我們做VXLay的卸載,就是讓網(wǎng)卡處理VXLay的操作,這樣帶寬可以達(dá)到三十六七的樣子,接近限速,因?yàn)獒尫帕薈PU,這是網(wǎng)卡幫助虛擬加速直接的表現(xiàn)。
此外還有一個(gè)技術(shù)叫做OVS,也是在云計(jì)算里邊會(huì)用的比較多,因?yàn)樗鳛橐粋€(gè)控制平面,功能非常的強(qiáng)大。Mellanox提出的一個(gè)方案,我們做基于我們的網(wǎng)卡做OVS off-flow(音譯),去學(xué)習(xí)你的OVS的流表,創(chuàng)建自己的路由規(guī)則到網(wǎng)卡里面進(jìn)行卸載,在這種情況下,我們就可以實(shí)現(xiàn)包括SLV,包括OVS在內(nèi)的一個(gè)既有數(shù)據(jù)平面加速,又有管理平面功能的這么一套完整的方案,一套SDN的一套網(wǎng)絡(luò)就搭建出來。
相信OpenStack,云計(jì)算很多知道OpenStack,它是一個(gè)主流的開源的一套云的操作系統(tǒng),如何跟OpenStack結(jié)合呢,我們其實(shí)是去針對(duì)OpenStack做了幾個(gè)插件,因?yàn)槲覀兪且粋€(gè)底層的網(wǎng)絡(luò)廠商,我們要把網(wǎng)絡(luò)功能映射到OpenStack的管理界面上,所以我們做了兩個(gè)插件,一個(gè)是Neturon,第二個(gè)是Cinder,我們?cè)谟?jì)算節(jié)點(diǎn)有一個(gè)Neturon,通過Neturon可以調(diào)用網(wǎng)卡的能力。對(duì)于存儲(chǔ)來講,我們通過RDMA加速,它可以把存儲(chǔ)的性能提高到5倍,甚至更多,這就是我們跟OpenStack結(jié)合的一些方案。OpenStack的版本,我們都支持,并且是內(nèi)置的,跟主流的版本,他們的版本都會(huì)內(nèi)制Mellanox的插件。
Ceph的存儲(chǔ)也是用的比較廣泛,中國也有很多社區(qū)活躍的開發(fā)人員在從事Ceph,確實(shí)是分布式性能比較高的存儲(chǔ)系統(tǒng),高性能的存儲(chǔ)仍然離不開高性能的網(wǎng)絡(luò),所以要發(fā)揮云計(jì)算最佳的優(yōu)勢(shì),那么你也需要去把網(wǎng)絡(luò)進(jìn)行一個(gè)升級(jí)。那么,這里可以看到,千兆網(wǎng)絡(luò)10G,萬兆網(wǎng)絡(luò),我如果采用更高的帶寬都會(huì)有很高的提升。Mellanox的網(wǎng)絡(luò)支持免費(fèi)的由40G升級(jí)到56G,56G是獨(dú)家的標(biāo)準(zhǔn),因?yàn)楸?0G又多了40%,當(dāng)我們升級(jí)到56G,性能也會(huì)有不小的提升。
100G的云有點(diǎn)夸張,現(xiàn)在云計(jì)算基礎(chǔ)設(shè)施帶寬還是以萬兆為主,可能聚合網(wǎng)絡(luò)很多廠家會(huì)采用4萬兆。100G的云是什么概念?這只是為了證明我們的演示,在OpenStack峰會(huì)上做的一個(gè)演示,是兩個(gè)物理節(jié)點(diǎn),每個(gè)物理節(jié)點(diǎn)上不是一個(gè)虛擬機(jī),這兩個(gè)虛擬機(jī)打帶寬,連接包括ConnectX-4100G網(wǎng)卡,Switch-IB/Spectrum交換機(jī),和25/100G的線纜。我們虛擬機(jī)達(dá)到90多G的帶寬已經(jīng)非常了不起。另外,它的CPU利用率,在這么高帶寬的情況下,CPU的利用率很低,只有0.71%,基本上對(duì)CPU沒有損耗。怎么做到,還是RDMA,RDMA是繞過CPU的,所以它是釋放你的CPU。所以,在高帶寬的同時(shí),其實(shí)可以把你系統(tǒng)的性能也提上去,可以降低CPU的損耗,這是我們解決方案的優(yōu)勢(shì)。
另外提供一些管理工具,我們的工具叫NEO。NEO跟Neturon通信,可以幫助我們減輕一些管理工作。前面介紹的是Mellanox的網(wǎng)絡(luò),我們有很多虛擬化的加速技術(shù),我們?cè)谠朴?jì)算的領(lǐng)域有很多很多的成功案例,比如微軟,微軟的公有云叫Azure,在中國有兩三年的歷史了。這是他們自己的一段引言,他們說我們通過把Azure的存儲(chǔ)升級(jí)到40G,我們的性能有了提升,并且成本有了大幅度的下降。所以,RDMA,包括40G也是我們一個(gè)比較有優(yōu)勢(shì)的一個(gè)方案,可以告訴大家,我們40G網(wǎng)卡出貨量,全球的出貨量2015年是94%。非常高的一個(gè)出貨量,基本上也是壟斷。這是國內(nèi)的OpenStack的合作伙伴基于我們的網(wǎng)絡(luò)做的案例,它采用萬兆,中間紫色的那一部分,萬兆實(shí)際的端到端的網(wǎng)絡(luò)互聯(lián),另外它跑的是KVM的虛擬化,加上Gluster的分布式存儲(chǔ)。它跑OpenStack這樣一個(gè)操作系統(tǒng)。給大家介紹這么多,介紹我們?cè)谠朴?jì)算上的方案,我們外面有展臺(tái),希望大家跟我們交流。謝謝!