時(shí)間越來越近了,后天英特爾將發(fā)布最新一代的雙路處理器——至強(qiáng)E5,當(dāng)然也已經(jīng)是公開的秘密。新一代的產(chǎn)品在性能上比上一代的雙路 Westmere-EP有了大幅提升,同時(shí)在能耗的控制上也更為出色。除了英特爾之外,各個合作伙伴也將在現(xiàn)場展示最新一代平臺產(chǎn)品,之前惠普和戴爾兩家已經(jīng)率先發(fā)布了自己新系列的產(chǎn)品——惠普Gen8系列和戴爾12G。
網(wǎng)上傳言的E5處理器規(guī)格
至強(qiáng)E5的確凝聚了太多的期待,因?yàn)橄啾壬弦淮伟l(fā)布Westmere-EP已經(jīng)過去了2年的時(shí)間。為此,有國外媒體已經(jīng)率先提供了E5全系列產(chǎn)品型號及規(guī)格,當(dāng)然更為細(xì)節(jié)的測試成績及規(guī)格等內(nèi)容還是要等到發(fā)布之后才能放出,畢竟敢捋英特爾這一大根虎須的人還不多。
Intel Sandy Bridge微架構(gòu)32nm至強(qiáng)處理
當(dāng)然,至強(qiáng)E5也不是我們今天想要介紹的內(nèi)容。借著至強(qiáng)E5發(fā)布的契機(jī),我們愿意同大家一起回顧一下英特爾多年以來在至強(qiáng)平臺中的產(chǎn)品,它們曾為我們的數(shù)據(jù)中心立下汗馬功勞,現(xiàn)在也改歇歇了。
首先登場的是至強(qiáng)5000系列處理器,它基于“Bensley”平臺。英特爾公司公布的“Bensley”平臺包括代號為“Dempsey”的雙核Xeon DP處理器和代號為“Blackford”的Intel 5000系列芯片組,另外還有一系列的新技術(shù),比如I/O AT技術(shù)、FBD內(nèi)存技術(shù)、更新的安全特性等等。
英特爾當(dāng)時(shí)一共發(fā)布了8款基于“Dempsey”核心的處理器:Xeon 5080、Xeon 5070、Xeon 5060、Xeon 5063、Xeon 5050、Xeon 5040、Xeon 5030和Xeon 5020。這些處理器依然采用了NetBurest微架構(gòu),它們將會是最后一個采用該微架構(gòu)的Xeon系列產(chǎn)品。在Xeon 5000系列處理器中整合了兩個完整的NetBurst微架構(gòu)處理器,并且對于NetBurst微架構(gòu)進(jìn)行了進(jìn)一步的優(yōu)化——主要涉及到超管線技術(shù)(Hyper Pipelined Technology)和執(zhí)行追蹤緩存(Execution Trace Cache)。每個處理器擁有獨(dú)立的2MB二級緩存,其前端總線為1066MHz或者667MHz,可以提供8.5GB/s或者5.3GB/s的傳輸帶寬。
Xeon 5000系列處理器采用了65nm制程,這對于有效的抑制Xeon處理器的發(fā)熱量具有至關(guān)重要的作用。采用90nm制程的Irwindale核心的單核 Xeon處理器TDP在130瓦左右,而Xeon 5000系列雙核處理器TDP也只有135瓦甚至更低。Xeon 5000系列處理器不再采用Socket604封裝,改用了FC-LGA6 LGA771封裝,可進(jìn)一步改進(jìn)處理器的電氣性能,更利于功率傳導(dǎo)。
這個系列的處理器依然支持超線程技術(shù)(Hyper-Threading Technology),這樣每個核心可以處理2個線程,每顆雙核心處理器可以并行處理4個線程,雙路配置的處理器則能可以同時(shí)處理8個線程。另外,這個系列的處理器支持EIST、EM64T、VT、XDbit等技術(shù),對于TM1功能也提供了支持。
基于Woodcrest核心的至強(qiáng)5100
英特爾目前已經(jīng)發(fā)布了7款基于Woodcrest核心的Xeon 5100處理器,它們是Xeon 5160、Xeon 5150、Xeon 5148、Xeon 5140、Xeon 5130、Xeon 5120和Xeon 5110。
Xeon 5100系列處理器的主頻變化很大,他們沒有延續(xù)上一代產(chǎn)品的主頻,已經(jīng)發(fā)布的處理器中主頻最低是1.6GHz,而最高的也只有3.0GHz。Xeon 5000系列處理器的最低主頻為2.5GHz,最高則達(dá)到了3.73GHz。處理器主頻的大幅度下降幫助Xeon 5100處理器明顯的降低了功耗,在7款處理器中只有5160的TDP為80瓦,5150/5140/5130/5120/5110等五款處理器TDP為 65瓦,Xeon 5148的TDP只有40瓦。
Xeon 5100系列處理器(Xeon 5160/5150/5148/5140/5130)增加了對于1333MHz前端總線的支持,該總線實(shí)際運(yùn)行頻率為333MHz,可以4倍于其頻率的速率傳輸數(shù)據(jù),因此理論上每秒可傳輸10.66 GB的數(shù)據(jù)。而部分低端的處理器(Xeon 5120/5110)則支持1066 MHz前端總線,此時(shí)其系統(tǒng)時(shí)鐘頻率為266MHz,帶寬為8.5 GB/s。之前的Xeon 5000系列處理器中則有4款產(chǎn)品采用了1066MHz前端總線,還有4款產(chǎn)品采用了667MHz前端總線。前端總線的技術(shù)并沒有明顯地的改變,依然利用了分離傳輸(split-transaction)、延遲應(yīng)答協(xié)議(deferred reply protocol)和地址和數(shù)據(jù)的源同步傳輸(Source-Synchronous Transfer,SST)等技術(shù)。
從英特爾公布的文檔來看,Xeon 5100系列處理器還進(jìn)一步改進(jìn)了熱量和功率管理能力,它除了支持原有的TM1和EIST技術(shù)之外,還增加了對于TM2的支持——它主要增加了調(diào)節(jié)處理器電壓的作用。另外,雙核英特爾Xeon 5100系列處理器也支持EDBit(Execute Disable Bit)功能和英特爾虛擬化技術(shù)(Intel VT)。不過超線程技術(shù)并沒有應(yīng)用在Xeon 5100系列處理器上。
Quad-core Xeon 5300系列處理器是定位于雙路服務(wù)器/工作站應(yīng)用的處理器,代號為Clovertown,它將兩個雙核核心整合在一個處理器基板上,率先向市場上推出了四核雙路處理器。
英特爾首先發(fā)布了5款處理器X5355、E5345、E5335、E5320和E5310,隨后又陸續(xù)發(fā)布了L5335、X5365等處理器。這些處理器均采用了65納米制程和LGA6封裝(LGA771),配置了8MB L2緩存(每顆處理器4MB L2緩存),主頻分別為最高達(dá)到了3.0GHz。型號最后一位是“5”的FSB頻率為1333MHz,傳輸帶寬可達(dá)10.6GB/s,型號最后一位是 “0”的FSB頻率為1066MHz,傳輸帶寬可達(dá)8.5GB/s。
四核Xeon 5300系列的TDP提升到了一個新的水平,X5355/X5365處理器TDP為120瓦,E系列的四款均為80瓦,L系列為50瓦。雙核Xeon 5100系列處理器中,Xeon 5160的TDP為80瓦,Xeon 5148 LV的TDP為40瓦,其余的均為65瓦。從英特爾公布的這些TDP數(shù)據(jù)來看,雖然四核處理器是兩顆雙核處理器的“簡單整合”,但是其功率應(yīng)該并非兩個雙核處理器的功率之和。
上圖顯示的是Xeon 5320處理器的基本信息:Intel Xeon 5320處理器,主頻為1.86GHz,前端總線頻率為1066MHz,每個核心配置有32KB L1數(shù)據(jù)緩存,32KB L1代碼緩存,每個DIE則整合有4MB L2緩存(也就是兩個核心共享4MB L2緩存),整個處理器總共具有8MB L2緩存??偟膩碚f,Xeon 5100所有的特性,Xeon 5300全都具有,最大的改變無非是核心的數(shù)量從2個增加到了4個。但是,毫無疑問的是四核處理器的出現(xiàn)使得計(jì)算資源的密度大幅度提升,而功耗基本保持不變,這對于寸土寸金的IDC而言絕對是有重大意義的。[page]
Intel嚴(yán)格的按照其“Tick-Tock”戰(zhàn)略,在2007年的11月份推出了基于45nm制程的四核處理器,代號Harpertown。相對于上一代65nm Clovertown核心的產(chǎn)品,Harpertown進(jìn)一步優(yōu)化了微架構(gòu),添加了功能并且升級了主要規(guī)格。
Xeon E5430處理器,2.66GHz,12M緩存,1333MHz FSB,具有適中的性能、功耗及價(jià)格
從65nm到45nm的轉(zhuǎn)變,不僅僅是當(dāng)前芯片設(shè)計(jì)在體積上的縮小。此類處理器中還增加了許多新的特性,如全新的英特爾SIMD流指令擴(kuò)展 4(SSE4),可通過47條全新指令加快包括視頻編碼在內(nèi)的工作負(fù)載的處理速度,從而支持高清晰度畫質(zhì)和照片處理,以及重要的HPC和企業(yè)應(yīng)用。
較高端的X5460處理器,后來Intel還發(fā)布了頻率更高的X5482處理器
和上一代Clovertown相比,Harpertown處理器將2 x 4MB的L2緩存提升到了2 x 6MB L2緩存,每兩個核心共享6MB緩存。Harpertown處理器將不再使用舊的1066MHz FSB,而開始支持更高的1333MHz/1600MHz FSB。由于采用了45nm High-k制程技術(shù),四核Harpertown的功耗依然保持同現(xiàn)有的雙核大致相當(dāng)?shù)乃?,TDP為80瓦、120瓦和150瓦,并且頻率規(guī)格也有所提高,最高端的Xeon X5492處理器可以達(dá)到3.4GHz,而上一代Xeon X5365只有3.00GHz。
對于Intel的Tick-Tock戰(zhàn)略已經(jīng)是老生常談了;從另一方面講,這標(biāo)明了Tick-Tock戰(zhàn)略的成功之處,一個簡單、明晰、有序和易于理解的發(fā)展計(jì)劃,對合作廠商、用戶和投資者都是極為有利的。TIck-Tock戰(zhàn)略簡而言之就是Intel處理器在奇數(shù)年進(jìn)行制程轉(zhuǎn)換(Tick),例如 2005年的65nm和2007年的45nm,而在偶數(shù)年進(jìn)行處理器的架構(gòu)更新(Tock),Nehalem架構(gòu)發(fā)布的2008年輪換到了Tock,也就是處理器的架構(gòu)更新。
Nehalem作為Intel用以取代Penryn微架構(gòu)的新一代處理器架構(gòu),和Penryn相比,Nehalem的微架構(gòu)并非是全新的,不過,架構(gòu)上則是一個很大的飛躍:Nehalem采用了直聯(lián)架構(gòu)。除此之外,Nehalem還具有一個鮮明的設(shè)計(jì)理念,就是采用了可擴(kuò)展的模塊化設(shè)計(jì),它將處理器劃分為兩個部分:Core核心和Uncore非核心(或者叫“核外”),所有產(chǎn)品線的Nehalem處理器,其Core核心部分都是一樣的,只是Uncore 部分可能不同,以滿足Intel對其提出的動態(tài)可擴(kuò)展的要求。Nehalem滿足了這個要求,它的內(nèi)核具有可擴(kuò)展的高可伸縮架構(gòu)。
由于共處在一個Tick-Tock上,因此Nehalem和Penryn都同樣屬于45nm工藝,從65nm工藝轉(zhuǎn)變到45nm工藝帶來的巨大能耗降低已經(jīng)無法再次重現(xiàn),因此Nehalem就不再注重于能耗的降低,而是注重于性能的提升,這樣的設(shè)計(jì)理念,帶來了處理器架構(gòu)的巨大變化,這些變化均面向性能的提高,也即是說,我們可以期望Nehalem具有著強(qiáng)大的性能。
[page]
雙路六核服務(wù)器版本和雙核客戶版本W(wǎng)estmere處理器配置
Westmere處理器家族是Nehalem處理器家族的下一代,Nehalem基于45nm制程,Westmere則基于32nm制程,它們都使用了 high-κ metal-gate(高K金屬柵極)工藝,在微架構(gòu)上,Westmere就是Nehalem的增強(qiáng)版本。
Intel High-k Metal Gate晶體管,這兩個技術(shù)都是為了增強(qiáng)晶體管的場效應(yīng)和降低其漏電
除了工藝之外,Westmere最大的特點(diǎn)就是最高集成了6個處理器核心,包括12MB L3緩存,共多達(dá)11.7億晶體管,四核心的Nehalem包括8MB L3緩存則有7.31億晶體管,而這兩者具有接近的核心面積(Westmere的還要小一點(diǎn))。
雙核和六核Westmere晶圓圖
和Nehalem一樣,Westmere也實(shí)現(xiàn)了Power Gates技術(shù),和Nehalem不同的是,Westmere的Power Gates不僅僅限于關(guān)閉處理器核心,它還擴(kuò)展到了可以關(guān)閉L3緩存以及Uncore上的全局隊(duì)列(Westmere晶圓上正中央下方的部分)。在所有核心都被Power Gate之后,L3緩存將會被部分刷新并且Uncore部分的供電將會線形地降低,L3/Uncore的漏電樓將得到降低。在最限制的情況下,L3緩存和全局隊(duì)列將會全部刷新并Power Gated關(guān)閉,只有一塊附屬于L3的SRAM會用來保持所有核心的關(guān)鍵狀態(tài)。
和Nehalem一樣,Westmere也使用了Long-Le晶體管(Long Channel長溝道晶體管)技術(shù),Nehalem-EX和Dunnington也有使用,只是“分量”有些不同。Westmere有60%的核心部分使用了長溝道晶體管,Uncore部分則同時(shí)使用了超低漏電晶體管和長溝道晶體管。Nehalem則是58%的核心部分使用了長溝道晶體管。
最后,Westmere的漏電功耗大約是總功耗的23%。Nehalem上這個數(shù)值是16%。
型號 | 制程 | 緩存 | 主頻 | 前端總線 | TDP | SMP | 雙核心 | 超線程 |
7150N | 65 nm |
16 MB L3 2x1 MB L2 |
3.50 GHz | 667 MHz | 150W | MP | 支持 | 支持 |
7140M | 65 nm |
16 MB L3 2x1 MB L2 |
3.40 GHz | 800 MHz | 150W | MP | 支持 | 支持 |
7140N | 65 nm |
16 MB L3 2x1 MB L2 |
3.33 GHz | 667 MHz | 150W | MP | 支持 | 支持 |
7130M | 65 nm |
8 MB L3 2x1 MB L2 |
3.20 GHz | 800 MHz | 150W | MP | 支持 | 支持 |
7130N | 65 nm |
8 MB L3 2x1 MB L2 |
3.10 GHz | 667 MHz | 150W | MP | 支持 | 支持 |
7120M | 65 nm |
4 MB L3 2x1 MB L2 |
3 GHz | 800 MHz | 95W | MP | 支持 | 支持 |
7120N | 65 nm |
4 MB L3 2x1 MB L2 |
3 GHz | 667 MHz | 95W | MP | 支持 | 支持 |
7110M | 65 nm |
4 MB L3 2x1 MB L2 |
2.60 GHz | 800 MHz | 95W | MP | 支持 | 支持 |
7110N | 65 nm |
4 MB L3 2x1 MB L2 |
2.50 GHz | 667 MHz | 95W | MP | 支持 | 支持 |
7041 | 90 nm | 2x2 MB | 3 GHz | 800 MHz | N/A | MP | 支持 | 支持 |
7040 | 90 nm | 2x2 MB | 3 GHz | 667 MHz | N/A | MP | 支持 | 支持 |
7030 | 90 nm | 2x1 MB | 2.8 GHz | 800 MHz | N/A | MP | 支持 | 支持 |
7020 | 90 nm | 2x1 MB | 2.66 GHz | 667 MHz | N/A | MP | 支持 | 支持 |
采用Paville核心的Xeon MP處理器屬于Xeon 7000系列,而采用Tulsa核心的Xeon MP處理器屬于Xeon 7100系列。Xeon 7100系列處理器主頻范圍在2.5GHz到3.5GHz之間,前端總線分為667MHz和800MHz兩種,型號后綴為N的前端總線為667MHz,型號后綴為M的前端總線為800MHz。Xeon 7000利用處理器主頻和前端總線頻率來區(qū)隔不同型號的產(chǎn)品(Xeon 5000/5100系列處理器也是如此),而Xeon 7100則不僅利用主頻、前端總線還利用L3緩存來區(qū)隔不同型號的產(chǎn)品。
每個 Xeon 7100處理器均包含兩個完整的核心,每核心均配置了1MB L2緩存,這僅是Xeon 7030/7040處理器L2緩存容量的一半。不過,Xeon 7100的兩個核心可以共享“新增”的L3緩存,比如7110和7120均配置了4MB L3緩存,7130配置了8MB L3緩存,而7140和7150都配置了16MB L3緩存,因此縮減了L2緩存容量并不一定會犧牲處理器整體性能。特別需要說明的是,7140和7150的L3緩存容量達(dá)到了16MB,僅次于Intel 于今年發(fā)布的雙核Itanium 2 9000處理器24MB L3緩存的容量。但是增加L3緩存并非創(chuàng)新,從Xeon MP的歷史來看,這樣的“改變”僅僅是一次回歸而已。
65納米制程的應(yīng)用使得Tulsa處理器得以集成更大容量的緩存。不過即便如此,Tulsa核心面積依然達(dá)到了424平方毫米,而之前的單核Potomac核心面積為354平方毫米,Paville的核心面積也只有299平方毫米。如果處理器復(fù)雜程度變化不大,從90納米制程升級到65納米制程則意味著同樣尺寸的晶圓可以切出更多的芯片,從而大幅度降低成本,但是Tulsa集成度遠(yuǎn)遠(yuǎn)高于前兩代產(chǎn)品,因此其成本不會因此有明顯降低。
同樣,因?yàn)榧啥鹊奶岣?Xeon 7100處理器內(nèi)包含13億個晶體管),Tulsa的功耗的絕對值也維持著較高的水平。Xeon 7110/7120的TDP為95W,而7130、7140和7150則均達(dá)到了150W??紤]到Xeon 7100系列處理器主頻更高,而且整合了L3緩存,其相對于Paxville處理器在能耗控制上還是取得了很大的進(jìn)步的。
隨Caneland平臺一起發(fā)布的有兩個系列的處理器:Xeon 7300四核處理器和Xeon 7200雙核處理器,代號分別為Tigerton-QC和Tigerton-DC。這兩個系列的處理器均是將兩個DIE封裝在一起,每個DIE均有4MB L2緩存。其中Tigerton-DC的設(shè)計(jì)非常有意思,它沒有采用單個DIE雙核的設(shè)計(jì)——英特爾稱這種設(shè)計(jì)可以在現(xiàn)有條件下讓雙核處理器具有更大容量的緩存,適于某些高性能計(jì)算和財(cái)務(wù)服務(wù)等有較大緩存需求的應(yīng)用。
Xeon 7300系列處理器包括6款產(chǎn)品,其中4款E系列主頻在1.6GHz-2.4GHz之間,4-8MB L2緩存,1066MT/s,TDP均為80瓦,適用于機(jī)架式/刀片式服務(wù)器;L系列只有一款L7345,主頻為1.86GHz,8MB L2緩存,TDP為50瓦,適用于高密度機(jī)架式/刀片式服務(wù)器;X系列的也只有一款X7350,主頻高達(dá)2.93GHz,TDP也達(dá)到了130瓦,適用于高性能應(yīng)用。
Xeon 7200/7300擴(kuò)容了二級緩存去掉了三級緩存,因此我們估計(jì)Tigerton的復(fù)雜程度并不會明顯的增加,所以功耗的降低主要來自頻率的降低和 65nm制程的進(jìn)一步改進(jìn)。Xeon 7200/7300處理器支持TM1、TM2功能,利用英特爾智能功率控制技術(shù)可單獨(dú)控制每個核心的功率狀態(tài)。
Tulsa相對于Paxville在微架構(gòu)上并沒有改進(jìn),最大的改變是開始采用65nm制程,為了進(jìn)一步的提升性能,只有在主頻和L3緩存上打主意。棄用Netburst微架構(gòu),采用高效能的Core微架構(gòu)(內(nèi)置WDEE,寬位動態(tài)執(zhí)行引擎)并且升級到四核是Xeon 7200/7300系列處理器相對于之前的Xeon 7000/7100系列處理器最大的不同。此外,Xeon 7200/7300還擴(kuò)容了二級緩存(從2x1MB升級到了2x4MB,支持智能緩存和智能內(nèi)存訪問),去掉了三級緩存(也不排除今后為了提升性能再增加),同時(shí)前端總線升級為1066MT/s,按照英特爾Xeon DP路線圖來看,今后Xeon MP處理器的FSB升級到1333MT/s甚至1600MT/s也是可能的。
Dunnington采用其后來者Nehalem一樣的45nm CMOS工藝,采用了金屬柵極High-K電介質(zhì)晶體管以及9層銅互聯(lián)技術(shù),總晶體管數(shù)量則為1.9 Billion——19億,已經(jīng)和Nehalem-EX的23億很接近了,新增加的核心和大容量的L3都需要占據(jù)很多的晶體管。Dunnington的核心面積為503.2mm2。
六核心45nm Penryn Dunnington——Xeon X7460的結(jié)構(gòu)圖,和其他Penryn不同,是一整塊“原生”的核心
來源:ISSCC2009 Over 1 Million TPC-C with a 45nm 6-Core Xeon CPU
對于一款處理器來說,除了外部平臺的架構(gòu)之外,處理器內(nèi)部架構(gòu)和處理器微架構(gòu)都是對性能有很大影響的主要因素。如圖所示的Dunnington屬于最高規(guī)格的一款,型號是X7460(曙光I840-H就采用了這款處理器),架構(gòu)上具有6個Penryn核心,每個核心帶有64KB L1緩存(32KB L1-I,2KB L1-D),每兩個處理核心共享3MB的L2緩存(果然還是帶有“粘”的性質(zhì)),三對處理器內(nèi)核就總共帶了9MB容量的L2,每個核心通過一條 128Bytes的緩存線聯(lián)結(jié)L2。Intel宣稱不同的一對核心之間的L2是具有其他互通界面的(被命名為Advanced Transfer Cache Architecture),不過語焉不詳。其他的四核45nm Penryn也具有這個高級緩存?zhèn)鬏敿軜?gòu)。X7460的核心頻率為2.66GHz,不算太高。Dunnington里面最高主頻就是2.93GHz。
7400系列處理器的規(guī)格,注意7400系列處理器里面也有4核心的型號
7400系列處理器的緩存架構(gòu)細(xì)節(jié)
重點(diǎn)來了,除了上面這些傳統(tǒng)的架構(gòu)之外,Dunnington特別的地方是多了一個Uncore結(jié)構(gòu),這個結(jié)構(gòu)包括了容量達(dá)到了16MB的L3緩存,所有的處理核心經(jīng)過L2聯(lián)結(jié)到中央系統(tǒng)邏輯,如下圖所示,標(biāo)明為Uncore的中央電路聯(lián)結(jié)著所有的核心以及16MB L3緩存,并通過一個傳統(tǒng)的FSB總線與處理器外部通信,由于所有處理內(nèi)核是通過新的總線與Uncore聯(lián)結(jié),而與以往的“粘結(jié)產(chǎn)品”使用FSB互聯(lián)不同,大部分的交通都發(fā)生在內(nèi)部,從而可以大為節(jié)約處理器的FSB帶寬。Xeon X7460的FSB頻率為1066MHz,提供8.5GB/s的帶寬,現(xiàn)在的Xeon MP都支持MIB(Multiple Independent Bus,多重獨(dú)立總線,Xeon DP的DIB的進(jìn)階版本),每一個處理器都通過獨(dú)立的FSB與MCH聯(lián)結(jié),因此效率上還可以。
"Uncore"是六核心45nm Penryn至強(qiáng)Dunnington的重要部分
代號為Nehalem-EX的服務(wù)器處理器是x86架構(gòu)中第一個具有8個核心的產(chǎn)品,Nehalem-EX擁有8個CPU核心,配置了24MB的L3。我們知道Intel的x86服務(wù)器產(chǎn)品線通常分為兩個層次:2個Socket以及2個Socket以上,如Nehalem-EP就是用于2個及以下Socket,Nehalem-EX就是用于4個或4個以上Socket。臺式機(jī)產(chǎn)品線的Nehalem處理器:Core i7(Bloomfield)在2008年11月發(fā)布,Nehalem-EP則預(yù)計(jì)在2009年3月中發(fā)布,Nehlam-EX若無意外則會是在下半年的晚些時(shí)候。由于競爭對手AMD的6核心Operton Istanbul就目前來看也就和Nehalem-EP打個不分上下,因此提前推出的“意外”應(yīng)該很難發(fā)生。
此次Nehalem-EX是由位于California加利福尼亞州Santa Clara研發(fā)中心推出的。一般認(rèn)為該研發(fā)中心擔(dān)任Itanium處理器的研發(fā)工作。順便提一下,Pentium Pro、Pentium 4處理器都是出自Hillsboro研發(fā)中心,HTT超線程技術(shù)也是,因此Nehalem和Pentium Pro這么相像、Nehalem上搭載Pentium 4上的超線程改良版也就順理成章、容易理解了——現(xiàn)在大家清楚為什么Pentium 4、Nehalem有超線程而Cornoe沒有超線程了吧?
來源:ISSCC2009 A 45nm 8-Core Enterprise Xeon Processor
上圖是Intel在ISSCC09 "A 45nm 8-Core Enterprise Xeon Processor"論文當(dāng)中給出的Nehalem-EX核心分布圖,基本構(gòu)成是處理器核心分布在四個角落,所有核心共享的L3緩存則居于內(nèi)核中部,在內(nèi)核正中央則具有兩個Hub集線器和一個Router路由器來負(fù)責(zé)所有核心的數(shù)據(jù)共享,管理內(nèi)存、QPI以及L3緩存之間的數(shù)據(jù)流向。Nehalem-EX在核心正上面具有4個QPI——QuickPath Interconnect總線,核心正下方則是兩個內(nèi)存界面,總共有4個DDR3內(nèi)存通道。下圖是另一個形式的核心分布圖,帶有一些猜測性質(zhì):
眾所周知,Nehalem-EX的生產(chǎn)工藝和其他Nehalem都一樣,都是45nm CMOS工藝,采用了金屬柵極High-K電介質(zhì)晶體管以及9層銅互聯(lián)技術(shù),總晶體管數(shù)量則為2.3 Billion——23億,是4核心Bloomfield的三倍以上,和Tukwila Itanium處理器一樣,然而Tukwila不斷跳票,因此Nehalem-EX有幸成為現(xiàn)在Intel晶體管數(shù)量最多的處理器。此外,雖然晶體管數(shù)量劇增,Nehalem-EX的面積卻只提升了約2.4倍左右。除了核心數(shù)量是Bloomfield的兩倍之外,額外加入的晶體管被用在了更多數(shù)量的L3 上,QPI/IMC以及中央系統(tǒng)邏輯(Hub和Router)的變化不算太大。