大數(shù)網(wǎng)的作者群有一個(gè)叫“大王”的,專門研究存儲。近期寫了一系列的科普文章,知識點(diǎn)很多。這里把他說的資料全部整理了一下,來一起研究存儲的未來。
存儲有什么未來?可以預(yù)見的是,由于SSD的價(jià)格的不斷下降,以及PCIe接口的不斷完善,加上NVMe協(xié)議的逐漸成熟,正在為整個(gè)存儲系統(tǒng)帶來顛覆性的改變,這種趨勢明顯。
如果再加上明年新材料TLC、3D-NAND、3D-Xpoint等面世和大規(guī)模商業(yè)化,PCIe+NVMe完全可能進(jìn)入數(shù)據(jù)中心充當(dāng)主存儲系統(tǒng),而不是只當(dāng)緩存。
一直以來,緩存都是二房丫頭的命,幫主子(數(shù)據(jù))救急,過度一下IO;可二房丫頭雖然顏值高,可價(jià)格貴,身子?jì)少F,主子可不敢把金銀財(cái)寶(數(shù)據(jù))完全交給她。現(xiàn)在二房丫頭可以成為正房了。
我們看看這一切如何發(fā)生的。
壹 存儲當(dāng)前的瓶頸在哪里?
一定程度上,閃存將磁盤換掉之后,引發(fā)的連鎖效應(yīng)非常廣泛,從接口到協(xié)議,從存儲系統(tǒng)到網(wǎng)絡(luò)架構(gòu),整個(gè)系統(tǒng)性的改變;但改變是緩慢的,就那NVMe來說,也是經(jīng)過幾年在互聯(lián)網(wǎng)行業(yè)的成熟,才慢慢被接受。
現(xiàn)在,服務(wù)器、網(wǎng)絡(luò)甚至于各種板卡和芯片廠商都著實(shí)為SSD方方面面騷動(dòng)了一番。
具體有這么幾個(gè)方面:
接口來說,磁盤時(shí)代6Gb/s的SATA和12Gb/s 的SAS,已經(jīng)是帶寬非常高的接口了,但SSD的出現(xiàn)立即把這些踢到了垃圾桶。
數(shù)據(jù)保護(hù)來說,之前PCIe SSD一般在Tie0層,主要的充當(dāng)角色是緩存,主要作用是頂IO壓力,而不是對應(yīng)用數(shù)據(jù)的長時(shí)間儲存。但是現(xiàn)在,PCIe SSD要做主存儲,首先要解決的就是如何將多個(gè)PCIe SSD組合成為一個(gè)存儲池了。
再用硬盤時(shí)代的RAID技術(shù)?NONO。比如RAID6效率非常低,而且寫入次數(shù)太多,閃存使用壽命會(huì)縮短。當(dāng)下針對PCIe SSD的數(shù)據(jù)保護(hù)技術(shù)可以說還處于初級階段,閃存廠商可能會(huì)自己做一個(gè)數(shù)據(jù)保護(hù)軟件。但是由于閃存廠商多有硬件的基因,所以這類軟件未來必然走向閃存陣列。另一方面,針對固態(tài)存儲的數(shù)據(jù)保護(hù)軟件也將是軟件廠商必爭的一個(gè)領(lǐng)域。
可以預(yù)料的是,PCIe SSD有望成為主流,雖然會(huì)有新的固態(tài)介質(zhì)和新的硬件接口,但是這需要時(shí)間也需要大量的投入,同時(shí)磁盤走向沒落已經(jīng)是沒跑的事了。
其次,雖然PCIe SSD很熱,特別是NVMe成熟之后,但是現(xiàn)在PCIe SSD仍在一個(gè)發(fā)展的前期,很多系統(tǒng)和網(wǎng)絡(luò)層面的事還沒有做。
貳 NVMe over Fabric統(tǒng)一網(wǎng)絡(luò)結(jié)構(gòu)?
說SSD正在改變所有,數(shù)據(jù)中心的網(wǎng)絡(luò)協(xié)議就可能徹底改變。為什么?
因?yàn)槲磥頂?shù)據(jù)中心有可能是上千片PCIe SSD充當(dāng)存儲主系統(tǒng),用的就是NVMe over Fabric搭建。NVMe over Fabric的作用是,如何解決網(wǎng)絡(luò)互聯(lián)的問題。
NVMe over Fabric就是要將NVMe嫁接在各種網(wǎng)絡(luò)上面,這里的網(wǎng)絡(luò)可以是以太網(wǎng)(iWARP或者是RoCE)、InfiniBand等等,當(dāng)然為了進(jìn)一步縮減延遲,RDMA(Remote Direct Memory Access,遠(yuǎn)程直接數(shù)據(jù)存取)在NVMe over Fabric中也是非常重要的角色。
這個(gè)架構(gòu)有三點(diǎn)需要說明。
首先,前端和后端都是基于NVMe的,并且與iSCSI和TCP/IP共用一個(gè)網(wǎng)絡(luò);
其次,對于RDMA的支持可以使得數(shù)據(jù)傳輸跳過操作系統(tǒng)進(jìn)行,所以延遲可以得到進(jìn)一步降低;
最后,隨著網(wǎng)絡(luò)技術(shù)的不斷演進(jìn),iWARP RDMA不是唯一的選擇,基于Omni和FC的方案應(yīng)該也會(huì)有。
NVMe聯(lián)盟早在去年9月就已經(jīng)發(fā)布一個(gè)新聞稿,說是在舊金山的IDF上會(huì)有NVMe over Fabric的解決方案demo展出,而最早成型的解決方案有望在2016年出現(xiàn)。
既然說是網(wǎng)絡(luò)中的問題,很多網(wǎng)絡(luò)廠商也有相關(guān)的動(dòng)向,比如InfiniBand領(lǐng)域的高手Mellanox有一個(gè)NBDx架構(gòu),兩塊PCIe SSD可以實(shí)現(xiàn)百萬級的IOPS性能。還有EMC的DSSD,也是大規(guī)模的基于NVMe SSD的存儲系統(tǒng),資料太少,就不說了。