66j8视频在线抉播,2024最新最全国产精品,好屌视频

強(qiáng)悍x86架構(gòu)全面解讀AMD Carrizo加速處理器

責(zé)任編輯：editor007

作者：腿腿兒

2015-02-26 20:47:38

摘自：天極網(wǎng)筆記本頻道

Carrizo是AMD的新一代高性能移動式加速處理器(APU)，包括4顆挖掘機(jī) (XV)處理器核心和8顆Radeon GCN架構(gòu)核心，采用28nm金屬柵極(HKMG)平面雙氧場效應(yīng)晶體管技術(shù)，以3 Vts薄氧化層設(shè)備和12層銅基鍍金為特色。

Carrizo是AMD的新一代高性能移動式加速處理器(APU)，包括4顆挖掘機(jī) (XV)處理器核心和8顆Radeon GCN架構(gòu)核心，采用28nm金屬柵極(HKMG)平面雙氧場效應(yīng)晶體管技術(shù)，以3 Vts薄氧化層設(shè)備和12層銅基鍍金為特色。這種28nm技術(shù)對之前壓路機(jī) (SR)所使用的28nm技術(shù)專門對密度進(jìn)行了增強(qiáng)，包括8個用于密度路由的1x金屬，用于低延遲路由的2x和4x金屬各一個，以及2個用于配電的16x金屬。

Carrizo晶片面積為250.04mm2，與Kaveri APU(KV)封裝大小相近，晶體管數(shù)量(31億個)多29%。除了二級緩存，挖掘機(jī)在14.48 mm2面積內(nèi)的晶體管總數(shù)從壓路機(jī)時期的8600萬個增至1.02億個。數(shù)量的增加主要?dú)w功于IPC的改進(jìn)，其中包括將每核心數(shù)據(jù)緩存從16K提高到 32K。

密度的加大可以把更多的空間分配給圖形、多媒體卸載以及把系統(tǒng)控制器集成在單一的BGA封裝。圖形IP部分增加的空間，使得Carrizo可以添加具有完整異構(gòu)系統(tǒng)架構(gòu)能力的HSA兼容部分，多媒體部分增加的空間添加了全新的高性能視頻解碼器，以及比Kaveri多一倍的視頻壓縮引擎。這使得Carrizo可以對9路實(shí)時1080p視頻流進(jìn)行轉(zhuǎn)碼，比Kaveri提升3.5倍。

Carrizo把8顆GCN架構(gòu)核心移到了單獨(dú)的有條件供電區(qū)域，使得顯示核心可以在最佳電壓下運(yùn)行，比擁有6顆GCN架構(gòu)核心的Kaveri提升達(dá)到20%。挖掘機(jī)的設(shè)計(jì)采用了高密度9軌標(biāo)準(zhǔn)單元庫，與AMD圖形知識產(chǎn)權(quán)庫更為一致。這使得Carrizo面積和功耗大大減少，雖然仍采用28nm制程，卻類似于改進(jìn)了制程。早期的實(shí)驗(yàn)顯示，在不同設(shè)計(jì)的恒定電壓下，面積平均減少約24%，頻率影響約為10%。在恒定功率下，頻率得到提升，是由于設(shè)計(jì)功率的減少允許更高電壓。更小的挖掘機(jī)核心在與之前的核心消耗同樣電力的情況下存在熱量集中的問題。除了泄漏更低這一技術(shù)特點(diǎn)外，Carrizo還通過把核心布局在離晶片邊緣和高功率密度區(qū)域更遠(yuǎn)的位置來降低熱量密度。

二級緩存包含兩個6T的宏，采用了讀/寫協(xié)助技術(shù)來改善Vmin。兩個宏(Phase-bound wordline VS. Cycle-bound wordline)在調(diào)速上的時間性差異要求不同的寫協(xié)助技術(shù)。二級數(shù) 據(jù)宏把字線看做完整的循環(huán)，把亞速字線/字線啟動結(jié)合起來用于讀/寫協(xié)助。字線使用比VDD略低的電壓進(jìn)行第一階段的存取。這給予了半選定單元位線足夠的放電時間，在字線返回完整VDD 之前，降低易感性讀取干擾。

在訪問的第二階段，pFET下拉被關(guān)閉，使字線到達(dá)完整的VDD。字線返回VDD之后，一組16個字線的共享功率頭被關(guān)閉，虛擬供應(yīng)通過一個被當(dāng)做電容器使用的nFET在VDD上方啟動。關(guān)閉 pFET頭會打開一個nFET以確保字線泄漏永遠(yuǎn)會比VDD 下面的Vt更多。該電路可以通過BOOSTEN 和WLUDCTL來配置，以允許下列任意組合：1)第一階段的減速，2)沒有減速的第二階段推進(jìn)，3)繼續(xù)減速，4)返回完整VDD。

由于標(biāo)簽的鎖相字線沒有為半選定單元位線在協(xié)助技術(shù)開始前放電留出足夠的時間，所以二級標(biāo) 簽宏把字線亞速/負(fù)位線結(jié)合起來用于協(xié)助技術(shù)。負(fù)位線電路使用單一的每個邏輯點(diǎn) 列上限而不是傳統(tǒng)的兩個上限。電容通過nFET傳輸門使用與控制寫驅(qū)動器的pFET上拉相同的信號耦接至位線。該電路在位線完全落地，并經(jīng)過自定時延遲調(diào)諧對準(zhǔn)負(fù)位線后，驅(qū)動位線并對 NEGBLEN做出判斷提示。當(dāng)對NEGBLEN做出判斷提示時，它會解除驅(qū)動nFET下拉門驅(qū)動和一個OR門延遲之后的信號認(rèn)定，通過一個nFET電容器驅(qū)動低于地面的位線。由于使用的兩種技術(shù) 將電壓擴(kuò)展到VDD-VSS操作窗口之外，因此可以避免由于過電壓而對設(shè)備造成損壞。一種被稱為 superVminEnable的微碼可控信號會在高電壓時關(guān)閉輔助功能。

挖掘機(jī)支持AMD首次推出的自適應(yīng)電壓頻率調(diào)節(jié)(AVFS)技術(shù)，這項(xiàng)技術(shù)與其他自適應(yīng)電壓手段[3,4,5]有相似之處，同時有兩個關(guān)鍵的改進(jìn)：1)基礎(chǔ)設(shè)施支持復(fù)制路徑以全套限制路徑的 Fmax統(tǒng)計(jì)樣本運(yùn)行，使路徑跟蹤得到改善，2)通過集成電源監(jiān)視(PSMS)電壓讀數(shù)耦合路徑邊緣評估，對來自內(nèi)在電路速度的延遲電壓影響進(jìn)行顯式消歧。核心動力是提供跨越各個運(yùn)算進(jìn)程、電壓和溫度的內(nèi)在硅速度能力的準(zhǔn)確評估。AVFS可以讓每一部分進(jìn)行自校準(zhǔn)，以確定當(dāng)前工作頻率和條件下最合適的電壓。受益包括消除常見于傳統(tǒng)測試和分級流動中的電壓的不確定性和保護(hù)帶，并可能減少/淘汰生產(chǎn)中昂貴的系統(tǒng)級測試。

為實(shí)現(xiàn)自校準(zhǔn)，AVFS要依靠一組時序關(guān)鍵復(fù)制路徑。這里用到了核心門控，線控和宏(緩存陣列)關(guān)鍵路徑。AVFS采用了一種特殊的陰影浮點(diǎn)運(yùn)算，可以對比本地副本路徑與其數(shù)據(jù)延遲版本的輸出。陰影浮點(diǎn)計(jì)算監(jiān)視各路徑的延遲過渡，表明“相近差錯”的時序。關(guān)鍵路徑累加器(CPA)單步調(diào)試可編程的延遲元件，收集相近差錯信息。在操作過程中，CPA跨電壓-頻率-溫度(VFT)收集的相近差錯被發(fā)送到片上系統(tǒng)管理單元(SMU)。SMU對數(shù)據(jù)統(tǒng)計(jì)進(jìn)行總結(jié)并創(chuàng)建出VFT表格，基本上是任何頻率-溫度組合特定部件的最優(yōu)電壓。在正常運(yùn)行時P狀態(tài)(P-state)的變化會參考VFT表格以確定最佳電壓。

強(qiáng)大的全芯片關(guān)鍵路徑變化采樣是取自CPA的10個分散的例子。每個CPA練習(xí)50條關(guān)鍵路徑，共計(jì)500條(300個門控、100個線控以及100個宏的復(fù)制路徑)。AVFS為路徑提取高斯分布統(tǒng)計(jì)并使用抽樣統(tǒng)計(jì)來推斷實(shí)際核心路徑的時序余量。對門控、線和宏分別處理來區(qū)分分布，為采樣的不確定性增加適當(dāng)?shù)姆雷o(hù)帶。定時余量預(yù)測與實(shí)際時序余量顯示AVFS能力的建立需要在整個電壓范圍內(nèi)的最小電壓的，實(shí)現(xiàn)高達(dá)30%的功率節(jié)省。

如上所述，系統(tǒng)可通過讓CPAs使用PSM指示電壓來針對本地電壓噪聲自動調(diào)整，通過修改關(guān)鍵路徑的時序裕度評估以補(bǔ)償電壓差(圖4.8.6)。AVFS系統(tǒng)可以由微碼或SMU觸發(fā)，對正常核心操作是透明的。全面實(shí)施的成本(占晶片尺寸的比例)低于核心面積的1%。

挖掘機(jī)通過比壓路機(jī)降低40%的功耗和23%的面積達(dá)到計(jì)劃目標(biāo)。通過減少所有電壓(從最小電壓至最大電壓)的整體核心功耗降低功率，挖掘機(jī)以頻率在更高的功率范圍調(diào)節(jié)為代價(jià)來降低它的操作功率范圍。經(jīng)過這種折衷的平衡，在面向移動平臺的12-35w的SoC設(shè)計(jì)中，Carrizo可以在單個/多線程任務(wù)和游戲等應(yīng)用場景，在功耗受限時仍能獲得頻率提升。面積上的節(jié)省也有助于Carrizo中和成本，把節(jié)省的面積用于提高游戲和多媒體性能。

carrizo 處理器核心