Carrizo是AMD的新一代高性能移動式加速處理器(APU),包括4顆挖掘機(jī) (XV)處理器核心和8顆Radeon GCN架構(gòu)核心,采用28nm金屬柵極(HKMG)平面雙氧場 效應(yīng)晶體管技術(shù),以3 Vts薄氧化層設(shè)備和12層銅基鍍金為特色。這種28nm技術(shù)對之前壓路機(jī) (SR)所使用的28nm技術(shù)專門對密度進(jìn)行了增強(qiáng),包括8個用于密度路由的1x金屬,用于 低延遲路由的2x和4x金屬各一個,以及2個用于配電的16x金屬。
Carrizo晶片面積為250.04mm2,與Kaveri APU(KV)封裝大小相近,晶體管數(shù)量(31億個)多29%。除了二級緩存,挖掘機(jī)在14.48 mm2面積內(nèi)的晶體管總數(shù)從壓路機(jī)時期的8600萬個增至1.02億個。數(shù)量的增加主要?dú)w功于IPC的改進(jìn),其中包括將每核心數(shù)據(jù)緩存從16K提高到 32K。
密度的加大可以把更多的空間分配給圖形、多媒體卸載以及把系統(tǒng)控制器集成在單一的BGA封裝。 圖形IP部分增加的空間,使得Carrizo可以添加具有完整異構(gòu)系統(tǒng)架構(gòu)能力的HSA兼容部分,多 媒體部分增加的空間添加了全新的高性能視頻解碼器,以及比Kaveri多一倍的視頻壓縮引擎。這 使得Carrizo可以對9路實(shí)時1080p視頻流進(jìn)行轉(zhuǎn)碼,比Kaveri提升3.5倍。
Carrizo把8顆GCN架構(gòu)核心移到了單獨(dú)的有條件供電區(qū)域,使得顯示核心可以在最佳電壓下運(yùn)行,比擁有6顆GCN架構(gòu)核心的Kaveri提升達(dá)到20%。挖掘機(jī)的設(shè)計(jì)采用 了高密度9軌標(biāo)準(zhǔn)單元庫,與AMD圖形知識產(chǎn)權(quán)庫更為一致。這使得Carrizo面積和功耗大大減少, 雖然仍采用28nm制程,卻類似于改進(jìn)了制程。早期的實(shí)驗(yàn)顯示,在不同設(shè)計(jì)的恒 定電壓下,面積平均減少約24%,頻率影響約為10%。在恒定功率下,頻率得到提升,是由于 設(shè)計(jì)功率的減少允許更高電壓。更小的挖掘機(jī)核心在與之前的核心消耗同樣電力的情況下存在熱量集中的問題。除了泄漏更低這一技術(shù)特點(diǎn)外,Carrizo還通過把核心布局在離晶片邊緣和高功 率密度區(qū)域更遠(yuǎn)的位置來降低熱量密度。
二級緩存包含兩個6T的宏,采用了讀/寫協(xié)助技術(shù)來改善Vmin。兩個宏(Phase-bound wordline VS. Cycle-bound wordline)在調(diào)速上的時間性差異要求不同的寫協(xié)助技術(shù)。二級數(shù) 據(jù)宏把字線看做完整的循環(huán),把亞速字線/字線啟動結(jié)合起來用于讀/寫協(xié)助。字線使用比VDD略 低的電壓進(jìn)行第一階段的存取。這給予了半選定單元位線足夠的放電時間,在字線返回完整VDD 之前,降低易感性讀取干擾。
在訪問的第二階段,pFET下拉被關(guān)閉,使字線到達(dá)完整的VDD。字線返回VDD之后,一組16個字 線的共享功率頭被關(guān)閉,虛擬供應(yīng)通過一個被當(dāng)做電容器使用的nFET在VDD上方啟動。關(guān)閉 pFET頭會打開一個nFET以確保字線泄漏永遠(yuǎn)會比VDD 下面的Vt更多。該電路可以通 過BOOSTEN 和WLUDCTL來配置,以允許下列任意組合:1)第一階段的減速,2)沒有減速的 第二階段推進(jìn),3)繼續(xù)減速,4)返回完整VDD。
由于標(biāo)簽的鎖相字線沒有為半選定單元位線在協(xié)助技術(shù)開始前放電留出足夠的時間,所以二級標(biāo) 簽宏把字線亞速/負(fù)位線結(jié)合起來用于協(xié)助技術(shù)。負(fù)位線電路使用單一的每個邏輯點(diǎn) 列上限而不是傳統(tǒng)的兩個上限。電容通過nFET傳輸門使用與控制寫驅(qū)動器的pFET上拉相同的信 號耦接至位線。該電路在位線完全落地,并經(jīng)過自定時延遲調(diào)諧對準(zhǔn)負(fù)位線后,驅(qū)動位線并對 NEGBLEN做出判斷提示。當(dāng)對NEGBLEN做出判斷提示時,它會解除驅(qū)動nFET下拉門驅(qū)動和一 個OR門延遲之后的信號認(rèn)定,通過一個nFET電容器驅(qū)動低于地面的位線。由于使用的兩種技術(shù) 將電壓擴(kuò)展到VDD-VSS操作窗口之外,因此可以避免由于過電壓而對設(shè)備造成損壞。一種被稱為 superVminEnable的微碼可控信號會在高電壓時關(guān)閉輔助功能。
挖掘機(jī)支持AMD首次推出的自適應(yīng)電壓頻率調(diào)節(jié)(AVFS)技術(shù),這項(xiàng)技術(shù)與其他自適應(yīng)電壓手 段[3,4,5]有相似之處,同時有兩個關(guān)鍵的改進(jìn):1)基礎(chǔ)設(shè)施支持復(fù)制路徑以全套限制路徑的 Fmax統(tǒng)計(jì)樣本運(yùn)行,使路徑跟蹤得到改善,2)通過集成電源監(jiān)視(PSMS)電壓讀數(shù)耦合路徑邊 緣評估,對來自內(nèi)在電路速度的延遲電壓影響進(jìn)行顯式消歧。核心動力是提供跨越各個運(yùn)算進(jìn)程、 電壓和溫度的內(nèi)在硅速度能力的準(zhǔn)確評估。AVFS可以讓每一部分進(jìn)行自校準(zhǔn),以確定當(dāng)前工作 頻率和條件下最合適的電壓。受益包括消除常見于傳統(tǒng)測試和分級流動中的電壓的不確定性和保 護(hù)帶,并可能減少/淘汰生產(chǎn)中昂貴的系統(tǒng)級測試。
為實(shí)現(xiàn)自校準(zhǔn),AVFS要依靠一組時序關(guān)鍵復(fù)制路徑。這里用到了核心門控,線控和宏(緩存陣列)關(guān)鍵路徑。AVFS采用了一種特殊的陰影浮點(diǎn)運(yùn)算,可以對比本地副本路徑與其數(shù)據(jù)延遲版本的輸出。陰影浮點(diǎn)計(jì)算監(jiān)視各路徑的延遲過渡,表明“相近差錯”的時序。關(guān)鍵路徑累加器(CPA)單步調(diào)試可編程的延遲元件,收集相近差錯信息。在操作過程中,CPA跨電壓-頻率-溫度(VFT)收集的相近差錯被發(fā)送到片上系統(tǒng)管理單元(SMU)。SMU對數(shù)據(jù)統(tǒng)計(jì)進(jìn)行總結(jié)并創(chuàng)建出VFT表格,基本上是任何頻率-溫度組合特定部件的最優(yōu)電壓。在正常運(yùn)行時P狀態(tài)(P-state)的變化會參考VFT表格以確定最佳電壓。
強(qiáng)大的全芯片關(guān)鍵路徑變化采樣是取自CPA的10個分散的例子。每個CPA練習(xí)50條關(guān)鍵路徑,共計(jì)500條(300個門控、100個線控以及100個宏的復(fù)制路徑)。AVFS為路徑提取高斯分布統(tǒng)計(jì)并使用抽樣統(tǒng)計(jì)來推斷實(shí)際核心路徑的時序余量。對門控、線和宏分別處理來區(qū)分分布,為采樣的不確定性增加適當(dāng)?shù)姆雷o(hù)帶。定時余量預(yù)測與實(shí)際時序余量顯示AVFS能力的建立需要在整個電壓范圍內(nèi)的最小電壓的,實(shí)現(xiàn)高達(dá)30%的功率節(jié)省。
如上所述,系統(tǒng)可通過讓CPAs使用PSM指示電壓來針對本地電壓噪聲自動調(diào)整,通過修改關(guān)鍵路徑的時序裕度評估以補(bǔ)償電壓差(圖4.8.6)。AVFS系統(tǒng)可以由微碼或SMU觸發(fā),對正常核心操作是透明的。全面實(shí)施的成本(占晶片尺寸的比例)低于核心面積的1%。
挖掘機(jī)通過比壓路機(jī)降低40%的功耗和23%的面積達(dá)到計(jì)劃目標(biāo)。通過減少所有電壓(從最小電壓至最大電壓)的整體核心功耗降低功率,挖掘機(jī)以頻率在更高的功率范圍調(diào)節(jié)為代價(jià)來降低它的操作功率范圍。經(jīng)過這種折衷的平衡,在面向移動平臺的12-35w的SoC設(shè)計(jì)中,Carrizo可以在單個/多線程任務(wù)和游戲等應(yīng)用場景,在功耗受限時仍能獲得頻率提升。面積上的節(jié)省也有助于Carrizo中和成本,把節(jié)省的面積用于提高游戲和多媒體性能。