還在使用磁盤與PCIe存儲(chǔ)方案?只能說您的思維恐怕還停留在兩年之前

責(zé)任編輯:editor005

作者:齊豐潤

2016-10-08 15:22:39

摘自:ZD至頂網(wǎng)

對(duì)于各代PowerEdge、ProLiant、UCS乃至其它x86服務(wù)器而言,其發(fā)展未來已經(jīng)變得相當(dāng)明確:更為強(qiáng)大的多核心處理器、更高內(nèi)存容量、更高PCIe傳輸帶寬以及不斷削減的空間與功耗要求。

服務(wù)器就像是百變的模特,搭配上DIMM完全不會(huì)產(chǎn)生任何問題。

還在使用磁盤與PCIe存儲(chǔ)方案?只能說您的思維恐怕還停留在兩年之前

對(duì)于各代PowerEdge、ProLiant、UCS乃至其它x86服務(wù)器而言,其發(fā)展未來已經(jīng)變得相當(dāng)明確:更為強(qiáng)大的多核心處理器、更高內(nèi)存容量、更高PCIe傳輸帶寬以及不斷削減的空間與功耗要求。

舉例來說,第八代ProLiant DL3603服務(wù)器僅擁有1到2塊至強(qiáng)E5-2400/2400 v2處理器,其計(jì)算核心為2/4/6/8/10個(gè),同時(shí)提供12個(gè)最高1600 MHz DDR3 DIMM插槽(最高內(nèi)存容量為384 GB)。而作為替代方案,第九代ProLiant DL160服務(wù)器則采用1到2塊至強(qiáng)E5-2600 v3系列處理器,核心數(shù)量為4/6/8/10/12個(gè),同時(shí)提供16個(gè)最高2133 MHz DDR4 DIMM插槽(最高內(nèi)存容量達(dá)到512 GB)。

雖然硬件配置持續(xù)走高,但應(yīng)用程序與操作軟件本身則往往無需大加變革——除了對(duì)硬件接口層級(jí)的驅(qū)動(dòng)程序進(jìn)行調(diào)整之外,這意味著第八代ProLiant能夠順暢將負(fù)載移交至第九代設(shè)備。應(yīng)用程序代碼將數(shù)據(jù)由永久存儲(chǔ)介質(zhì)中讀取至內(nèi)存當(dāng)中,而后交由CPU計(jì)算核心加以處理,并最終將結(jié)果重新寫入至永久存儲(chǔ)介質(zhì)之內(nèi)。這就像是洗衣機(jī)的運(yùn)作流程——漂洗、重復(fù)、完成。

但這一切恐怕將很快迎來轉(zhuǎn)變。

多核心CPU與虛擬化服務(wù)器軟件帶來的可觀計(jì)算能力意味著應(yīng)用程序需要耗費(fèi)更多時(shí)間等待來自永久性存儲(chǔ)介質(zhì)的IO響應(yīng)。另外,服務(wù)器還需要以更快速度處理體積更為龐大的數(shù)據(jù)塊,這就要求其需要避免利用永久性存儲(chǔ)介質(zhì)處理延遲敏感型IO操作。

而延遲這一問題的矛頭則直接指向以下三大因素:

1.磁盤驅(qū)動(dòng)器在實(shí)現(xiàn)隨機(jī)數(shù)據(jù)IO時(shí)速度過慢。

2.閃存雖然在速度上高于磁盤,但其速度仍無法滿足IO需求。

3.操作系統(tǒng)內(nèi)基于磁盤的IO堆棧往往耗時(shí)過長而且屬于多余機(jī)制。

大家可以讓存儲(chǔ)介質(zhì)與服務(wù)器的DRAM與CPU靠得“更近”,即直接進(jìn)行附加,或者將磁盤替換為閃存,乃至將基于磁盤的SATA與SAS協(xié)議升級(jí)為采用NVMe驅(qū)動(dòng)機(jī)制的PCIe——然而,這一切都只能改善而非徹底解決速度過慢的問題。

從PCIe閃存到DRAM的數(shù)據(jù)讀取時(shí)間消耗仍然太過巨大,而數(shù)據(jù)本身需要被轉(zhuǎn)儲(chǔ)于DRAM或者其它類型的介質(zhì)內(nèi)方可被CPU計(jì)算核心所處理的設(shè)計(jì)思路也大大限制了最終速度表現(xiàn)。

技術(shù)行業(yè)給出的答案似乎集中在DRAM身上,然而其雖然速度確實(shí)夠快,但卻因?yàn)槌杀咎叨鵁o法在各服務(wù)器層面用于交付數(shù)TB級(jí)別存儲(chǔ)容量。另外,亦有廠商嘗試?yán)脙?nèi)存DIMM將固態(tài)存儲(chǔ)機(jī)制直接接入內(nèi)存通道——盡管其存在非易失特性,但仍然將閃存直接視為內(nèi)存使用。舉例來說,數(shù)據(jù)由NAND DIMM被移動(dòng)于DRAM DIMM,使用內(nèi)存?zhèn)鬏斬?fù)載并存儲(chǔ)指令,而非通過操作系統(tǒng)堆棧執(zhí)行那種傳統(tǒng)的緩慢IO命令。

一次SAS MLC SSD讀取操作通常只需要耗費(fèi)150微秒。NVMe SSD的一次讀取則需要120微秒。NVDIMM-F讀取帶來的延遲通常在5到10微秒之間,速度提升高達(dá)10至20倍。下圖所示為NVDIMM速度指示:

還在使用磁盤與PCIe存儲(chǔ)方案?只能說您的思維恐怕還停留在兩年之前


Xitore NVDIMM圖表

圖表中所示的Memory1與NVDIMM-X(即Xitore開發(fā)的NVDIMM技術(shù))技術(shù)參數(shù)與我們本文的探討核心聯(lián)系并不緊密,因此這里直接將其忽略。

我們假定一次NVDIM-F讀取操作需要耗時(shí)10微秒:這相當(dāng)于10000納秒,而一次DDR4 DRAM訪問只需要耗時(shí)14納秒,速度提升超過700倍,但其仍遠(yuǎn)低于CPU一級(jí)緩存訪問速度的0.5納秒。下面來看一次PCIe SSD訪問操作所需要的延遲:一次寫入延遲為30微秒,而一次讀取操作為110微秒,這里使用的為美光9100 NVMe PCIe SSD。這意味著這款美光NVMe SSD在訪問數(shù)據(jù)方面帶來的時(shí)耗長度將達(dá)到NVDIMM-F訪問的11倍。(這些數(shù)字在不同具體產(chǎn)品當(dāng)中可能有所區(qū)別。)

現(xiàn)在我們將后NAND時(shí)代下的存儲(chǔ)介質(zhì)納入計(jì)算,例如英特爾與美光發(fā)布的3D XPoint。其讀取延遲為7微秒,速度幾乎達(dá)到美光NVMe SSD產(chǎn)品的16倍。而這還僅僅是其1.0版本的性能表現(xiàn)。

這些數(shù)字相當(dāng)令人鼓舞,也激勵(lì)著各非易失性介質(zhì)與驅(qū)動(dòng)器供應(yīng)商將NAND與XPoint DIMM(乃至ReRAM等其它類型的存儲(chǔ)介質(zhì)技術(shù))推向服務(wù)器供應(yīng)商。根據(jù)他們的觀點(diǎn),大家的服務(wù)器將能夠顯著縮短IO等待時(shí)長,這意味著將高速存儲(chǔ)介質(zhì)當(dāng)作內(nèi)存使用將使得同一服務(wù)器承載更多虛擬機(jī)并提升虛擬機(jī)運(yùn)行速度。

當(dāng)然,用戶需要對(duì)系統(tǒng)及應(yīng)用程序軟件作出修改,從而確保其解決由自身帶來的高時(shí)耗IO命令問題并轉(zhuǎn)而使用內(nèi)存負(fù)載存儲(chǔ)命令——這是因?yàn)?NVDIMM非易失性介質(zhì)能夠作為內(nèi)存直接使用,但這種替換僅在字節(jié)層級(jí)可行,而非塊尋址層級(jí)。

那么讓我們假定第十代ProLiant服務(wù)器采用此類NVDIMM。其需要確保操作系統(tǒng)能夠支持NVDIMM類負(fù)載存儲(chǔ)IO,且各關(guān)鍵性系統(tǒng)與應(yīng)用程序軟件(包括網(wǎng)絡(luò)瀏覽器、數(shù)據(jù)庫、郵件與協(xié)作軟件等)供應(yīng)商亦能夠在其產(chǎn)品當(dāng)中支持此種新型內(nèi)存類IO,否則這一全面存儲(chǔ)升級(jí)將根本無從談起。

HPE、思科與戴爾乃至其它服務(wù)器供應(yīng)商亦需要摸索NVDIMM與DRAM之間的最佳容量搭配比例。各廠商需要能力計(jì)算出NVDIMM容量與PCIe閃存及SAS/SATA磁盤容量間的比值,而后逐步通過原型系統(tǒng)進(jìn)行工作負(fù)載運(yùn)行測(cè)試、分析結(jié)果并優(yōu)化各項(xiàng)系統(tǒng)組件,最終完成對(duì)性能、功耗、設(shè)備運(yùn)行溫度乃至實(shí)現(xiàn)成本的權(quán)衡工作。

下一代服務(wù)器的開發(fā)工作將因此變得極為復(fù)雜,其復(fù)雜度將遠(yuǎn)超目前這一代。另外,這種與NVDIMM相關(guān)的硬件與軟件復(fù)雜性還將逐步滲透至傳統(tǒng)CPU、DRAM、IO適配器等元素的開發(fā)工作當(dāng)中。我們可以預(yù)見,英特爾公司必然會(huì)把來自其Altera事業(yè)部的FPGA方案納入這一組合,從而進(jìn)一步提升特定應(yīng)用程序工作負(fù)載的運(yùn)行速度。

各服務(wù)器供應(yīng)商都面臨著艱難的方案開發(fā)工作,但如果他們能夠摸索出正確的發(fā)展道路,那么最終的服務(wù)器成果將更為強(qiáng)大——而作為用戶的我們自然也將樂見其成。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)