稱霸移動(dòng)領(lǐng)域后,ARM試圖進(jìn)軍并占領(lǐng)桌面、服務(wù)器早已經(jīng)不是秘密,也有很多廠商行動(dòng)起來,但從目前的跡象看,ARM服務(wù)器即便爆發(fā)最快也得等到2014年。雖然ARM架構(gòu)在這幾年各方面都堪稱突飛猛進(jìn),但究竟能不能從Intel Xeon、AMD Opteron那里奪得一杯羹,還有待觀察。
在目前已有的一些ARM服務(wù)器產(chǎn)品中,基本都是概念試驗(yàn)性質(zhì)的,完全沒有大規(guī)模鋪開,因此想一探究竟也非常困難。又是大佬AnandTech,他們從英國(guó)Boston那里拿到了一臺(tái)迄今為止堪稱最為成熟的ARM服務(wù)器“Viridis”,其中使用了Calxeda專門為服務(wù)器開發(fā)的ARM SoC,并且和Intel Xeon、Atom進(jìn)行了實(shí)際對(duì)比測(cè)試。
ARM服務(wù)器是騾子是馬?終于第一次有了真正的評(píng)測(cè)數(shù)據(jù)。
來瞧瞧ARM服務(wù)器
這臺(tái)服務(wù)器首先在外觀上就很有特色,前面板赫然是紅色的,在強(qiáng)調(diào)沉穩(wěn)的服務(wù)器領(lǐng)域可不多見。Calxeda在這里用不同顏色來代表不同用途,紅色對(duì)應(yīng)云平臺(tái),橙色代表NAS應(yīng)用,藍(lán)色則是高性能集群。
注:原文中一些關(guān)于服務(wù)器零部件的介紹我們就特意略過了,重點(diǎn)只看處理器相關(guān)的。
前面板之后是24個(gè)2.5寸硬盤位,可以安裝SATA硬盤,還有一個(gè)標(biāo)準(zhǔn)的750W 80PLUS金牌電源。
主板和普通x86服務(wù)器上的很不一樣,沒有任何CPU、內(nèi)存插槽,而是遍布PCI-E插槽,每對(duì)插槽插上一個(gè)EnergyCard(簡(jiǎn)稱EC)擴(kuò)展卡,就構(gòu)成了一個(gè)服務(wù)器集群。
每塊EC上有4顆處理器、4條mimiDIMM內(nèi)存插槽、16個(gè)SATA接口,相當(dāng)于4個(gè)服務(wù)器節(jié)點(diǎn)。
每臺(tái)服務(wù)器可以安裝12塊EC,那就是48個(gè)節(jié)點(diǎn),不過光纖互連架構(gòu)最多可以支持到4096個(gè)節(jié)點(diǎn),具體多少就看怎么配置、需求幾何了。
評(píng)測(cè)樣機(jī)只有6塊EC、24個(gè)節(jié)點(diǎn)。內(nèi)存安裝的是Netlist 4GB 1.35V ECC(PC3L-10600W-9-10-ZZ),總計(jì)24條、96GB。硬盤使用了三星MZ7PC256HAFU 256GB(類似消費(fèi)級(jí)的310系列),每顆處理器對(duì)應(yīng)一塊,總計(jì)24塊、6TB。以前的版本還有microSD卡插槽,現(xiàn)在取消了。
風(fēng)冷散熱方面做得倒是很巧妙,不過拆裝起來有點(diǎn)費(fèi)勁。
處理器名字叫做EnergyCore ECX-1000,臺(tái)積電40nm工藝制造,Cortex-A9架構(gòu),四核心,主頻1.1-1.4GHz,典型功耗3.8-5W。
每個(gè)核心有32KB一級(jí)指令、32KB一級(jí)數(shù)據(jù)緩存,所有核心共享4MB ECC二級(jí)緩存。普通移動(dòng)處理器里一般只有1MB二級(jí)緩存,還不支持ECC。
處理器內(nèi)還有優(yōu)化SIMD處理的NEON擴(kuò)展、獨(dú)立的FPU浮點(diǎn)單元、TrustZone安全模塊。Cortex-A9可以每時(shí)鐘周期解碼兩條指令,并分發(fā)最多四條。這和雙核心雙線程的Atom差不多,但是跟Sandy Bridge Xeon E5的4-5條解碼、6發(fā)射是沒法比的。
真正的大殺器是功耗:Calxeda宣稱,整個(gè)服務(wù)器節(jié)點(diǎn)在1.1GHz頻率時(shí)的負(fù)載功耗最低只有5W,待機(jī)時(shí)更是區(qū)區(qū)0.5W。
服務(wù)器更離不開軟件支持和優(yōu)化。Calxeda在操作系統(tǒng)上支持Ubuntu、Fedora,不過理論上任何基于32-bit ARM Linux內(nèi)核的編譯版本都能夠運(yùn)行。Ubuntu ARM已經(jīng)有了一個(gè)預(yù)編譯的Highbank鏡像可用。
Calxeda也在這方面投入了一些開發(fā)資源,并加入了非營(yíng)利組織Linaro,旨在為ARM SoC打造開源生態(tài)系統(tǒng)。
截止去年底,Calxeda生態(tài)系統(tǒng)涵蓋的操作系統(tǒng)、編譯器、編程語言、調(diào)試器、Java、應(yīng)用程序如下:
【實(shí)際應(yīng)用測(cè)試】
不過上邊都是理論測(cè)試,也沒有發(fā)揮ARM服務(wù)器多節(jié)點(diǎn)、高性能光纖互連的特性。該看看真正的應(yīng)用了。
Calxeda宣稱,ARM服務(wù)器并非面向一般IT管理,而是適合以下四種環(huán)境:Web應(yīng)用、中間層應(yīng)用、離線分析、存儲(chǔ)和文件服務(wù)。
為此假設(shè)兩套服務(wù)器。Xeon方面除了兩顆E5-2650L,還加入兩顆E5-2660 2.2GHz/95W,同樣八核心十六線程,這就總計(jì)四顆、32核心、64線程。搭配128GB內(nèi)存、ESXi 5.1虛擬環(huán)境創(chuàng)建24個(gè)虛擬機(jī),每個(gè)里邊都假設(shè)一個(gè)PHPBB(Apache2/MySQL)網(wǎng)站,各自分配4個(gè)邏輯CPU核心、4GB內(nèi)存,占用硬盤空間約8GB。再模擬75個(gè)并發(fā)用戶,每0.6-2.4秒發(fā)送一個(gè)新的請(qǐng)求。監(jiān)控使用vApus壓力測(cè)試框架。
這相當(dāng)于每秒鐘有幾千個(gè)用戶點(diǎn)擊十幾個(gè)網(wǎng)站,一天下來就會(huì)有上億次點(diǎn)擊。實(shí)際測(cè)量網(wǎng)絡(luò)流量峰值8Gb/s,高于典型的4-6Gb/s。
ARM方面負(fù)載相同,但用的不是虛擬機(jī),而是24個(gè)物理節(jié)點(diǎn)。
圖中數(shù)據(jù)都是每秒響應(yīng)次數(shù)(越高越好)。在并發(fā)用戶較少的時(shí)候,96個(gè)ARM A9核心要比兩種32個(gè)Xeon邏輯核心都慢一些,但隨著并發(fā)用戶數(shù)的增多,ARM開始反超,相比E5-2650L快了足有50%,甚至比E5-2660都快不少。
Calxeda還提供了一些優(yōu)化方法,不過倒騰下來結(jié)果并沒有好多少,反而還略有倒退。E5-2650L經(jīng)過優(yōu)化之后倒是提高了一些成績(jī)。
再看響應(yīng)時(shí)間(越低越好)。ARM仍然是在并發(fā)用戶數(shù)多的時(shí)候更勝一籌,不過優(yōu)化沒啥效果,反而再次退步了??雌饋碓谲浖?yōu)化上,ARM路漫漫兮。
【功耗測(cè)試】
這或許將是ARM服務(wù)器最為依賴的絕招之一了,真會(huì)很省電么?
Calxeda/ARM真的做到了:每個(gè)服務(wù)器節(jié)點(diǎn)的平均功耗只有大約8.3W,正好符合官方宣稱的6-8.5W,而待機(jī)時(shí)候僅僅5.6W,距離官方說的5W也很接近了,峰值也不過10W。
而且這些都是優(yōu)化后的成果,說明盡管性能沒上去,但至少功耗下來了,同樣可喜可賀,而在優(yōu)化前待機(jī)、平均、峰值功耗分別為6.8W、9.1W、10.5W,效果還是很明顯的,尤其是待機(jī)的時(shí)候,不優(yōu)化可是要比Intel更耗電的。
再考慮處理器頻率、服務(wù)器空間因素,ARM相比于Xeon平均能節(jié)約功耗10%,待機(jī)時(shí)則省18%。
【價(jià)格】
Boston Viridis ARM服務(wù)器要多少錢?24節(jié)點(diǎn)、1.4GHz、96GB內(nèi)存的一臺(tái)官方標(biāo)價(jià)2萬美元,真的很貴。
要知道,一臺(tái)戴爾R720有兩顆Xeon E5-2650L、96GB內(nèi)存、雙萬兆網(wǎng)絡(luò),才不過8千美元,買兩臺(tái)還能剩下4千。
但如果批量采購(gòu),Boston Viridis每臺(tái)可以優(yōu)惠到8500美元,每個(gè)節(jié)點(diǎn)才352美元,基本就差不多了,但在服務(wù)器采購(gòu)上,一般達(dá)到20臺(tái)能享受10-20%的折扣,所以此時(shí)Xeon E5的大約要6500-7200美元。
【結(jié)語】
ARM架構(gòu)天生孱弱的性能決定了它不可能在速度上去比拼Intel Xeon,后者可以在幾乎任何一個(gè)方面輕松完秒它,而且配置更加靈活,軟件支持和優(yōu)化也更為完善,生態(tài)系統(tǒng)羨慕死你。
Calxeda也并非不知道這一點(diǎn),特別強(qiáng)調(diào)ECX-1000 SoC只適合初期體驗(yàn),下一代基于Cortex-A15架構(gòu)的同樣也會(huì)如此,不會(huì)全面鋪開。而根據(jù)測(cè)試,比較適合這種ARM服務(wù)器的是需要應(yīng)付一定網(wǎng)絡(luò)流量的Web服務(wù)器集群,或者流媒體服務(wù)器、存儲(chǔ)服務(wù)器,這些CPU負(fù)載不是很高的地方,以及非常在意功耗的客戶。
當(dāng)然,ARM真正要在服務(wù)器領(lǐng)域內(nèi)發(fā)威還得等待64位的ARMv8 Cortex-A50系列,Calxeda也準(zhǔn)備屆時(shí)開始爆發(fā)。ARMv8架構(gòu)有很多專門針對(duì)服務(wù)器設(shè)計(jì)的地方,無疑更適合。
盡管完全無法和Xeon媲美,Calxeda ECX-1000的進(jìn)步仍然堪稱革命性的,如約做到每個(gè)節(jié)點(diǎn)8W的功耗值得贊嘆,而且別忘了這只是40nm工藝的。Intel Atom性能差不多,工藝可是新的32nm。
Calxeda的下一代服務(wù)器ARM芯片組“Midway”正在開發(fā)之中,預(yù)計(jì)會(huì)在今年第三季度登場(chǎng),屆時(shí)會(huì)使用28nm Cortex-A15架構(gòu),單線程整數(shù)性能將比現(xiàn)在提升50%,可尋址內(nèi)存達(dá)到16GB,當(dāng)然功耗也會(huì)稍高一些。可以預(yù)料,屆時(shí)的ARM服務(wù)器將能適合更多環(huán)境,包括分布式內(nèi)存緩存、大型Web、中型服務(wù)器等等,而且還會(huì)支持KVM、Xen虛擬機(jī)(不過ARM真正想在虛擬機(jī)上跑起來還得等ARMv8)。