在諸如亞馬遜、谷歌、Facebook、微軟等 IT 巨頭公司的超級(jí)數(shù)據(jù)中心以及其他超大規(guī)模服務(wù)器集群中運(yùn)行的云軟件堆棧極大地改變了當(dāng)前數(shù)據(jù)中心的設(shè)計(jì)并顛覆了傳統(tǒng)的企業(yè) IT 應(yīng)用的智慧。在戶外,會(huì)有諸如容錯(cuò)的基于 x86 系統(tǒng)的服務(wù)器、大型主機(jī)以及企業(yè)存儲(chǔ)整列等鍍金的硬件集成式系統(tǒng);在室內(nèi),會(huì)有相互連接的配有本地硬盤(pán)驅(qū)動(dòng)器的普通比薩盒服務(wù)器超級(jí)陣列(pizza box server,服務(wù)器封裝在一個(gè)矩形的水平方向的底盤(pán)里,經(jīng)常和其它一樣的幾個(gè)服務(wù)器安裝在一個(gè)架子上。這種服務(wù)器的大小就和外買的比薩餅的盒子一樣)、構(gòu)建云基礎(chǔ)架構(gòu)和應(yīng)用的計(jì)算和存儲(chǔ)節(jié)點(diǎn)綜合體。復(fù)雜的云管理軟件能夠跨系統(tǒng)分配工作負(fù)載,根據(jù)實(shí)際的應(yīng)用需求和硬件故障情況來(lái)自動(dòng)調(diào)整工作負(fù)載,而這一切都不會(huì)打斷應(yīng)用的運(yùn)行和用戶的操作。鑒于此,在「云」這種層面上,硬件設(shè)備的尺寸、能耗以及成本顯得格外重要。云設(shè)施的運(yùn)營(yíng)人員牢記一則箴言,「像悉心照看奶牛那樣管理系統(tǒng)」。
售價(jià)便宜、占用空間小且能耗低這三大特點(diǎn)威脅到英特爾以及其他品牌服務(wù)器制造商的市場(chǎng)統(tǒng)治地位,而實(shí)際上最近的市場(chǎng)調(diào)研報(bào)告結(jié)果顯示組裝 ODM 貼牌系統(tǒng)設(shè)備也正在瘋狂地攫取市場(chǎng)份額。然而英特爾顯然不會(huì)再犯那種將移動(dòng)處理器市場(chǎng)拱手讓給 ARM 的悲劇。但就目前公司的反應(yīng)來(lái)看,雖說(shuō)英特爾是牢牢把握住數(shù)據(jù)中心市場(chǎng),但鑒于云系統(tǒng)設(shè)計(jì)的需求,這所謂的市場(chǎng)地位也似乎存在一些不確定性。盡管云架構(gòu)為低端、消費(fèi)者導(dǎo)向的處理器留下生存空間,但就目前來(lái)看,并無(wú)預(yù)兆顯示下一代 ARM 處理器會(huì)發(fā)生重大變化。
「云」到底有何不同?
基于「云」的硬件是完全虛擬化的,這意味著現(xiàn)如今的處理器能夠處理十多種工作負(fù)載。同樣一群性能稍弱但是效率更高的處理器也能完成同樣的工作負(fù)載,為何要在服務(wù)器里配置高性能的處理器來(lái)完成同樣的工作負(fù)載呢?實(shí)際上在「云」系統(tǒng)環(huán)境中,工作負(fù)載是均勻分布和共享與各種計(jì)算和存儲(chǔ)節(jié)點(diǎn)之間。相較于企業(yè)級(jí)數(shù)據(jù)中心而言,云系統(tǒng)看起來(lái)更像是一群螞蟻,而非一群大象。
云系統(tǒng)的集群式設(shè)計(jì)似乎專為密集排列的低功耗 ARM 處理器量身定做。而英特爾的處理器架構(gòu)的演化發(fā)展進(jìn)程則是以單層客戶端-服務(wù)器應(yīng)用程序的需求為主導(dǎo),而這類應(yīng)用往往將工作負(fù)載局限在一臺(tái)服務(wù)器上進(jìn)行,因此最大程度地發(fā)揮了處理器多個(gè)處理核心多線程的工作性能,相應(yīng)的性能衡量尺度是性能功耗比(每瓦特能耗能輸出多少計(jì)算性能)以及性能尺寸比(每立方英寸空間能輸出多少計(jì)算性能)而非純粹的最大性能輸出。這非常像 RISC 指令集充分利用了當(dāng)時(shí)采用全新優(yōu)化架構(gòu)傳統(tǒng)處理器的硬件瓶頸,進(jìn)而成為上世界 90 年代 Unix 設(shè)備的主流平臺(tái)。鑒于 ARM 處理器更能滿足虛擬化工作負(fù)載的需求,并且在占用空間、性能效率以及性價(jià)比上占據(jù)優(yōu)勢(shì),所以說(shuō)超大規(guī)模的云系統(tǒng)為 ARM 處理器打開(kāi)了一扇機(jī)會(huì)之門(mén)。而基于目前的表現(xiàn)來(lái)看,英特爾似乎已經(jīng)「砰」的一聲重重地關(guān)上了這扇機(jī)會(huì)之門(mén)。
ARM 的進(jìn)擊:64 位、支持虛擬化功能的服務(wù)器芯片
相較于智能手機(jī)平臺(tái)而言,ARM 在數(shù)據(jù)中心的表現(xiàn)則顯得黯淡無(wú)光。盡管在服務(wù)器領(lǐng)域有所嘗試,但既沒(méi)有得到市場(chǎng)的廣泛認(rèn)可,技術(shù)上也未能得到大規(guī)模使用,從而導(dǎo)致專注開(kāi)發(fā) ARM 架構(gòu)服務(wù)器處理器的 Calxeda 公司在去年關(guān)門(mén)倒閉。當(dāng)時(shí)的產(chǎn)品最大的缺點(diǎn)在于僅支持過(guò)時(shí)的 32 位指令集并且在硬件上不支持虛擬化技術(shù),從而致使基于 ARM 平臺(tái)的系統(tǒng)無(wú)法運(yùn)行云軟件堆?;蛘咂髽I(yè)級(jí)的虛擬化軟件 VMware。ARM 公司解決了 Cortex A-57 在設(shè)計(jì)上的局限性并推出了首款針對(duì)服務(wù)器和嵌入式設(shè)備的 64 位 ARM SoC(片上系統(tǒng))。ARM 服務(wù)器芯片制造商 Applied Micro 近期推出 ARM 服務(wù)器意味著不久之后我們會(huì)看到基于 ARM 平臺(tái)的系統(tǒng)在服務(wù)器工作負(fù)載中的實(shí)際性能表現(xiàn)。
CERN(歐洲核子研究組織)進(jìn)行了首次獨(dú)立的 64 位 ARM 服務(wù)器性能基準(zhǔn)測(cè)試。這次測(cè)試將搭載有 8 核 Cortex-A57 SoC 的 Applied Micro X-Gene 主板的系統(tǒng)與兩款英特爾系統(tǒng)(分別是搭載傳統(tǒng)的 8 核 Xeon 處理器的系統(tǒng)以及搭載多核計(jì)算加速協(xié)處理器 XeonPhi 的系統(tǒng))。鑒于 Xeon Phi 是專為高度并行的工作負(fù)載
而設(shè)計(jì)的,所以對(duì)于數(shù)據(jù)中心設(shè)計(jì)者而言,最為有趣的對(duì)比結(jié)果是 ARM 和 Xeon 的性能表現(xiàn)對(duì)比。不出所料,在純粹的最大化性能輸出對(duì)比測(cè)試中,Xeon 服務(wù)器系統(tǒng)把 ARM 服務(wù)器系統(tǒng)甩出十幾條大街外,但在性能功耗比對(duì)比測(cè)試中,兩個(gè)系統(tǒng)的數(shù)據(jù)非常接近。當(dāng)然考慮到此次測(cè)試中所采用的是現(xiàn)已過(guò)時(shí)的第一代 E5 Xeon(代號(hào)為 Sandy Bridge)的處理器,而非最新的 Haswell Xeon E5-v3,所以從對(duì)比測(cè)試結(jié)果來(lái)講,CERN 有點(diǎn)低估英特爾系統(tǒng)的實(shí)際表現(xiàn)。
拿英特爾的舊款 E5 Xeon 處理器來(lái)進(jìn)行測(cè)試,雖然在性能功耗比對(duì)比測(cè)試中,ARM 系統(tǒng)能夠取得與英特爾平臺(tái)接近的數(shù)據(jù),但是這樣做有失公允。在筆者進(jìn)行的測(cè)試中,通過(guò)最后 SPEC 總體性能基準(zhǔn)測(cè)試可以發(fā)現(xiàn),三款 Xeon 處理器無(wú)論是在最大化性能輸出還是性能功耗比上,都完勝 ARM。所以英特爾根本無(wú)需擔(dān)心 ARM 的進(jìn)擊。筆者在測(cè)試中所采用的 Xeon 處理器在性能規(guī)格上和 CERN 所說(shuō)采用的 E5 Xeon 基本一致。在最大化性能上,英特爾 Xeon 系統(tǒng)是 ARM 系統(tǒng)的三倍。而在性能功耗比對(duì)比測(cè)試中,差距有所縮小,但 ARM 系統(tǒng)也僅有 Sandy Bridge Xeon 的 10% 不到。鑒于 Haswell v3 性能更為強(qiáng)勁且效率更高,在計(jì)算效率對(duì)比測(cè)試中,ARM 系統(tǒng)也僅有英特爾 Xeon 系統(tǒng)的 65%。詳情請(qǐng)參看下圖
英特爾-ARM 服服務(wù)器平臺(tái)性能對(duì)比測(cè)試(分別拿 Xeon E5、Xeon E5 v2 以及 Xeon E5 v3 與 ARM64 位處理器 Cortex-A57 進(jìn)行對(duì)比,對(duì)比的內(nèi)容有 CMS 內(nèi)容管理系統(tǒng)的性能和效率)
英特爾仍然統(tǒng)治云系統(tǒng)平臺(tái)
首款 64 位 ARM 服務(wù)器處理器的推出僅僅是意味著與英特爾在數(shù)據(jù)中心服務(wù)器領(lǐng)域同臺(tái)競(jìng)爭(zhēng)成為可能。這僅僅意味著全新的密集處理器分布設(shè)計(jì)產(chǎn)品發(fā)展戰(zhàn)略的誕生,這種設(shè)計(jì)思路能和單一集中處理器設(shè)計(jì)一樣都能帶來(lái)性能的穩(wěn)定提升。單一的 CERN 的測(cè)試并不能說(shuō)明什么,基于云架構(gòu)的數(shù)據(jù)中心依舊會(huì)尋求英特爾 Haswell 架構(gòu)的 Xeons 處理器,絕對(duì)的最大性能輸出,良好的性能功耗比表現(xiàn)以及久經(jīng)時(shí)間考研的 x86 指令集才是王道。
對(duì)于那些尋求最大化密集架構(gòu)設(shè)計(jì)的云系統(tǒng)設(shè)計(jì)人員而言,用于 VMware EVO:RAIL 的超大規(guī)模 2U 四節(jié)點(diǎn)服務(wù)器 x86 服務(wù)器才是上乘之選。