如今,閃存已經(jīng)在一些互聯(lián)網(wǎng)數(shù)據(jù)中心中大量采用,然而,對(duì)于用戶(hù)來(lái)說(shuō),閃存與傳統(tǒng)硬盤(pán)有著很大的區(qū)別,而在應(yīng)用過(guò)程中,則會(huì)出現(xiàn)不同的挑戰(zhàn)。
前段時(shí)間卡耐基梅隆大學(xué)基于Facebook數(shù)據(jù)中心大量的PCIe閃存使用環(huán)境寫(xiě)過(guò)一篇論文《Facebook閃存失效大規(guī)模研究》。這個(gè)研究的結(jié)果時(shí)間跨度非常長(zhǎng),而且監(jiān)控的數(shù)量也足夠大,非常具有代表意義。
閃存數(shù)據(jù)中心的應(yīng)用
下面我們來(lái)看一下這個(gè)研究結(jié)果的幾點(diǎn)重要結(jié)論:
(1)閃存與傳統(tǒng)硬盤(pán)的失效性不同。
在傳統(tǒng)磁盤(pán)的應(yīng)用環(huán)境中,一般開(kāi)機(jī)故障率比較高,然后是穩(wěn)定期,故障率維持恒定,最后經(jīng)過(guò)長(zhǎng)時(shí)間使用,故障率又上升。
而閃存的失效與傳統(tǒng)的餓磁盤(pán)并不相同,閃存的失效并不是單純地隨閃存芯片磨損增加。它們歷經(jīng)幾個(gè)明顯的時(shí)期,與失效如何出現(xiàn)和隨后如何被檢測(cè)到相一致。如下圖,閃存是開(kāi)機(jī)故障率低,之后故障率有所提高,然后又是穩(wěn)定期,最后故障率又提高。
,
這種情況的出現(xiàn)是因?yàn)楫?dāng)閃存大規(guī)模使用時(shí),質(zhì)量不好的顆粒就會(huì)出現(xiàn)損壞,故障率上升。這時(shí)閃存可以通過(guò)OP(Over-provisioning,是指SSD給壞塊預(yù)留的空間)的顆粒替換質(zhì)量不高的顆粒,替換之后,閃存逐步進(jìn)入穩(wěn)定工作的狀態(tài),故障率降低,直至生命周期的末端,故障率提升。
(2)閃存讀操作干擾情況并不普遍。
即閃存的故障率與閃存單元讀取數(shù)據(jù)的操作關(guān)系不大,也就是閃存的壽命也幾乎不受讀操作影響,這一點(diǎn)是一致的。
閃存
(3)高溫會(huì)帶來(lái)高的失敗率。
通過(guò)截流SSD操作看來(lái)可以極大地減少高溫帶來(lái)的可靠性負(fù)面影響,但是會(huì)帶來(lái)潛在的性能下降。
溫度過(guò)高會(huì)帶來(lái)錯(cuò)誤,導(dǎo)致失敗。溫度過(guò)低,也并不利于SSD性能的發(fā)揮。并且,在閃存產(chǎn)品的生產(chǎn)過(guò)程中,由于焊接等操作,也會(huì)對(duì)閃存產(chǎn)生直接的高溫威脅,造成閃存出廠(chǎng)時(shí)就有了很高的故障率。
Greenliant通過(guò)對(duì)生產(chǎn)過(guò)程的技術(shù)把控,并且在生產(chǎn)前和生產(chǎn)后進(jìn)行反復(fù)檢測(cè),保證在生產(chǎn)環(huán)境中不會(huì)出現(xiàn)像論文中提到的,如同facebook使用過(guò)程中由于溫度升高,出現(xiàn)大量無(wú)法修復(fù)的錯(cuò)誤造成設(shè)備故障。
以上這三點(diǎn)就是通過(guò)《Facebook閃存失效大規(guī)模研究》這篇論文,聯(lián)系到實(shí)際的閃存使用中的一些總結(jié)。閃存產(chǎn)品的穩(wěn)定性和可靠性是完全可以通過(guò)技術(shù)的手段來(lái)完善的。這就與不同廠(chǎng)商的技術(shù)有很大關(guān)系,目前國(guó)內(nèi)的閃存廠(chǎng)商很多,但是整體來(lái)說(shuō),在技術(shù)方面還有很大的空間。但值得我們關(guān)注。