1月7日在衍生自桌面硬盤的企業(yè)級(jí)近線(nearline)硬盤出現(xiàn)并普及之后,無論是磁盤陣列還是服務(wù)器都不再向用戶推薦性能上相近的消費(fèi)級(jí)產(chǎn)品了。盡管在DIY市場(chǎng)還會(huì)有少數(shù)人出于成本考慮使用廉價(jià)的桌面硬盤,但如果遇到兼容性問題或者較高的故障率只能是有苦而說不出。不過,進(jìn)入到云存儲(chǔ)時(shí)代之后,情況似乎有所改變...
“云硬盤”身上的企業(yè)級(jí)和桌面血統(tǒng)
去年9月,筆者前往上海參加了2012華為云計(jì)算大會(huì),在第二天的原創(chuàng)報(bào)道“華為UDS對(duì)象存儲(chǔ):ARM自組織硬盤滿足CERN功耗”中有這樣一段話:“使用消費(fèi)級(jí)還是企業(yè)級(jí)硬盤可以由用戶來選擇。企業(yè)級(jí)(7200rpm近線)硬盤大約以(消費(fèi)級(jí))200%的成本提供133%的性能(數(shù)字僅供參考),經(jīng)過Google和CMU的評(píng)估它們的可靠性都能勝任。”
熟悉7200rpm企業(yè)級(jí)近線硬盤由來的讀者應(yīng)該知道,它們就衍生自桌面硬盤,主要是改進(jìn)了工藝、優(yōu)化固件來提高可靠性,減低故障率,有些還在SATA之外提供SAS接口的型號(hào)。企業(yè)級(jí)產(chǎn)品通常都要求7*24小時(shí)連續(xù)運(yùn)行,不過近線硬盤最初誕生時(shí)只建議20%的工作負(fù)載,而傳統(tǒng)10,000和15,000轉(zhuǎn)的SCSI、SAS硬盤都適合100%負(fù)載的應(yīng)用環(huán)境。
提到云存儲(chǔ)一詞,無論是公共云還是私有云,企業(yè)云還是桌面云都有一個(gè)共同的特點(diǎn)。那就是像交易型應(yīng)用生成的結(jié)構(gòu)化數(shù)據(jù)、熱數(shù)據(jù)所占的比例較??;而非結(jié)構(gòu)化數(shù)據(jù),用于備份和歸檔的冷數(shù)據(jù)比例則比較大。當(dāng)然,我們這里指的云存儲(chǔ),不是私有云計(jì)算基礎(chǔ)設(shè)施里面包含的那種存儲(chǔ)系統(tǒng)。訪問比率的下降、在長(zhǎng)時(shí)間沒有數(shù)據(jù)請(qǐng)求時(shí)降低轉(zhuǎn)速甚至停轉(zhuǎn)來節(jié)約耗電,再加上數(shù)據(jù)量往往龐大,這類設(shè)備更多考慮的是成本,當(dāng)然也包括能源成本。
西部數(shù)據(jù)(WD)在去年推出了針對(duì)桌面NAS存儲(chǔ)的“紅盤”系列,相對(duì)于已經(jīng)普及的藍(lán)盤和綠盤,紅盤針對(duì)小型RAID系統(tǒng)進(jìn)行了優(yōu)化。但它仍然歸類于消費(fèi)級(jí)硬盤,按官方的定位可以適用于家用的“個(gè)人云存儲(chǔ)”,而與企業(yè)級(jí)應(yīng)該不沾邊。
到了去年10月,希捷宣布推出3個(gè)系列的企業(yè)級(jí)硬盤:3.5英寸的Constellation CS、最大4TB的Constellation ES.3,以及2.5英寸10,000轉(zhuǎn)的Savvio 10K.6。本文的目的就是以硬盤廠商的規(guī)格資料為參考,根據(jù)筆者的經(jīng)驗(yàn)和部分測(cè)試數(shù)據(jù)來簡(jiǎn)單分析Constellation CS的定位特點(diǎn),具備傳統(tǒng)企業(yè)級(jí)硬盤還是桌面硬盤的血統(tǒng)?并在希捷的產(chǎn)品線中縱向?qū)Ρ龋硗鈾M向?qū)Ρ却碇鴰准覐S商最高量產(chǎn)密度的4TB硬盤。
希捷Constellation CS——為“云存儲(chǔ)(Cloud)”定制的企業(yè)級(jí)硬盤。最多3張碟片的設(shè)計(jì),以及輕薄的盤體讓我聯(lián)想起B(yǎng)arracuda桌面產(chǎn)品。
在希捷的資料中,我們看到Constellation CS系列的特點(diǎn)為“容量?jī)?yōu)化的硬盤,設(shè)計(jì)用于大量云存儲(chǔ)”
適用于全天候云數(shù)據(jù)中心復(fù)制環(huán)境,存儲(chǔ)價(jià)格合理
高抗振動(dòng)性,適用于可靠的企業(yè)級(jí)性能
使用功耗最低的3.5英寸企業(yè)級(jí)硬盤,節(jié)省了大量功耗和冷卻成本
高級(jí)格式化邏輯塊管理,適用于行業(yè)領(lǐng)先的數(shù)據(jù)完整性
容量高達(dá)3TB,具有7200RPM性能。絕不犧牲性能
使用希捷快速安全清除技術(shù)的更低LCO,適用于簡(jiǎn)單的硬盤再利用或廢棄
增加您的云存儲(chǔ),最高可達(dá)每平方英尺114TB(高記錄密度,筆者注)
SATA 6Gb/秒接口優(yōu)化了突發(fā)性能
適合的應(yīng)用環(huán)境包括
云存儲(chǔ)服務(wù)器
云存儲(chǔ)陣列
云備份存儲(chǔ)
直連式外置存儲(chǔ)設(shè)備 (DAS)
網(wǎng)絡(luò)附加存儲(chǔ)設(shè)備 (NAS)
Constellation CS規(guī)格表:除了3TB容量之外,還有1TB和2TB兩個(gè)容量點(diǎn)。
即時(shí)安全擦除、抗旋轉(zhuǎn)振動(dòng)
由上表,首先是可選帶有希捷“即時(shí)安全擦除(Instant Secure Erase)”功能的型號(hào)。即時(shí)安全擦除建立在SED(自加密驅(qū)動(dòng)器)技術(shù)的基礎(chǔ)上,其實(shí)現(xiàn)原理參見下圖:
希捷即時(shí)安全擦除過程(如果沒記錯(cuò)的話,另外幾大硬盤廠商,包括WD/HGST、東芝在內(nèi)也都有類似的技術(shù))
在啟用了自加密技術(shù)之后,存儲(chǔ)在硬盤物理介質(zhì)上的數(shù)據(jù)就是經(jīng)過“加密Key”處理之后的,這一點(diǎn)和SSD驅(qū)動(dòng)器普遍支持的AES-128和AES-256加密方式差不多。而在需要時(shí)可以由主機(jī)端發(fā)出指令,清除并生成一個(gè)新的數(shù)據(jù)加密Key,這樣原有的數(shù)據(jù)就無法正常讀出了。
接下來是“抗旋轉(zhuǎn)振動(dòng)”和“線形隨機(jī)振動(dòng)”。前者主要是針對(duì)RAID磁盤陣列這樣的多硬盤環(huán)境,力圖避免硬盤的振動(dòng)累加在一起從而影響正常的數(shù)據(jù)讀寫。傳統(tǒng)桌面硬盤在這種情況下可能會(huì)有明顯的性能下降,因?yàn)樽x寫數(shù)據(jù)的成功率降低了??剐D(zhuǎn)振動(dòng)也是企業(yè)級(jí)硬盤區(qū)別消費(fèi)產(chǎn)品的特點(diǎn)之一。
桌面硬盤的MTBF、7*24全天候、PowerChoice
Constellation CS的平均無故障時(shí)間(MTBF)為80萬小時(shí),而桌面級(jí)硬盤通常也在60~80萬小時(shí)之間。不過桌面硬盤一般只推薦每周5*8小時(shí)的運(yùn)行時(shí)間,而Constellation CS則是7*24小時(shí),也就是365天全年開機(jī)。
應(yīng)該是得益于單碟1TB的Barracuda平臺(tái),Constellation CS的運(yùn)行時(shí)功耗只有8.0瓦,閑置功率為5.53瓦。這個(gè)數(shù)字可以和后面的Constellation ES進(jìn)行對(duì)比。
PowerChoice按需節(jié)能選項(xiàng),是在硬盤閑置時(shí)提供的幾種節(jié)電級(jí)別——卸載磁頭、降低轉(zhuǎn)速到4000RPM(應(yīng)該是針對(duì)7200轉(zhuǎn)硬盤)、停止旋轉(zhuǎn)和關(guān)閉驅(qū)動(dòng)電路。筆者在“Nexsan:高密度、類似ZFS的固態(tài)緩存統(tǒng)一存儲(chǔ)?”一文中提到的綠色節(jié)能技術(shù)MAID(大規(guī)模閑置磁盤陣列),就是通過硬盤廠商PowerChoice之類的技術(shù)來實(shí)現(xiàn)的。
希捷為Constellation CS提供3年有限質(zhì)保和有限的企業(yè)級(jí)電話支持。當(dāng)然,如果您是從OEM(如存儲(chǔ)廠商)購(gòu)買的配件,硬盤廠商應(yīng)該是不直接提供服務(wù)的。
[page]
回顧:4KB扇區(qū)在企業(yè)級(jí)硬盤的應(yīng)用
除了最多3碟片/6磁頭之外,Constellation CS還有一點(diǎn)與Barracuda相同而在Constellation ES系列上沒有出現(xiàn)過,那就是4KB扇區(qū)。硬盤的物理扇區(qū)從512bytes增大到4KB,有助于提高容量利用率,并保證磁記錄密度不斷提高之后的數(shù)據(jù)完整性。
在希捷的技術(shù)文檔《過渡到高級(jí)格式化4K扇區(qū)硬盤》中有更多相關(guān)的信息,“2009年12月,經(jīng)過與IDEMA的通力合作,將高級(jí)格式化提名作為4K字節(jié)扇區(qū)標(biāo)準(zhǔn)的名稱,并獲得批準(zhǔn)。此外,所有硬盤制造商還承諾,自2011年1月開始,所發(fā)行的臺(tái)式機(jī)和筆記本電腦產(chǎn)品的新型硬盤平臺(tái)都采用高級(jí)格式化扇區(qū)格式。”
筆者還在曾在2年半之前寫道:
“至于為什么IDEMA 2011年1月1日的要求中不包括對(duì)OEM客戶出貨和企業(yè)級(jí)硬盤,這個(gè)其實(shí)也不難理解:部分OEM和企業(yè)級(jí)硬盤用戶可能會(huì)有前文中提到的“小型離散數(shù)據(jù)寫入”的應(yīng)用需求,而且出現(xiàn)這種情況的幾率相對(duì)于常規(guī)桌面應(yīng)用來說要高。用測(cè)試軟件舉個(gè)典型的例子,就是使用Iometer在沒有硬盤分區(qū)和文件系統(tǒng)的情況下(常用方式)進(jìn)行512字節(jié)數(shù)據(jù)塊隨機(jī)寫這樣的極限性能測(cè)試。
這個(gè)還讓我們聯(lián)想到固態(tài)硬盤的性能,大部分廠商公布的上萬甚至50,000 IOPS的隨機(jī)寫入性能應(yīng)該都是在4KB對(duì)齊情況下的測(cè)試結(jié)果,換個(gè)測(cè)試方法或許就會(huì)降低不少。由于閃存介質(zhì)也需要用4KB物理頁面來模擬512字節(jié)的邏輯扇區(qū),面對(duì)小于4K的離散寫入請(qǐng)求很可能也會(huì)出現(xiàn)性能下降,SSD固態(tài)驅(qū)動(dòng)器存在的“寫入放大”現(xiàn)象和4KB扇區(qū)HDD機(jī)械硬盤在原理上是相似的。
對(duì)應(yīng)到實(shí)際中,一些企業(yè)級(jí)軟件,比如Oracle數(shù)據(jù)庫(kù)這樣典型的結(jié)構(gòu)化數(shù)據(jù),可以使用其自帶的OCFS文件系統(tǒng),也可以支持直接對(duì)磁盤(包括RAID邏輯盤等情況)“裸設(shè)備”進(jìn)行操作,并且比在文件系統(tǒng)上的效率更高。在這類環(huán)境下,高級(jí)格式化(4K)硬盤有可能會(huì)出現(xiàn)扇區(qū)不對(duì)齊、2KB或者更小數(shù)據(jù)塊的隨機(jī)寫入等問題。類似的情況還反映在:Iometer的OLTP(在線交易處理)應(yīng)用測(cè)試腳本就包含了2KB、4KB和8KB三種數(shù)據(jù)塊大小。
對(duì)于未來4KB扇區(qū)硬盤在企業(yè)級(jí)存儲(chǔ)上的應(yīng)用,我們還要考慮和RAID卡/磁盤陣列控制器之間的兼容性。盡管RAID在進(jìn)行條帶化時(shí)Stripe分塊大小通常在64KB左右,一般不會(huì)小于4KB,但我們還是不能完全排除512字節(jié)模擬扇區(qū)和物理扇區(qū)可能不對(duì)齊的問題。根據(jù)筆者截至目前(2010年7月)的了解,這些領(lǐng)域的廠商普遍還沒有在4KB扇區(qū)硬盤的支持上做出過表態(tài)。”
Iometer 4KB隨機(jī)寫測(cè)試(無文件系統(tǒng)/全部容量,關(guān)閉寫緩存)
上面的圖表是我在2011年進(jìn)行的測(cè)試——這里面想說的是4KB扇區(qū)的希捷Momentus 7200 750GB 2.5英寸筆記本硬盤。它在測(cè)試中設(shè)置“4KB對(duì)齊”之后的結(jié)果曲線,明顯高于默認(rèn)設(shè)置。筆者曾經(jīng)這樣分析道:
“Momentus 7200 750GB上以默認(rèn)設(shè)置運(yùn)行4KB隨機(jī)寫測(cè)試,就會(huì)出現(xiàn)我們以前提到過的“寫入請(qǐng)求不對(duì)齊”的情況,增加了硬盤磁介質(zhì)的實(shí)際I/O數(shù)量。而對(duì)齊到4KB扇區(qū)之后的寫入,則相當(dāng)于把傳統(tǒng)512byte扇區(qū)硬盤需要完成的8個(gè)寫入請(qǐng)求合并成一個(gè),因此性能的提升就在情理之中了。”
除了Constellation CS之外,還有其他廠商的企業(yè)級(jí)近線硬盤也采用了4KB扇區(qū),這將在本文最后的4TB章節(jié)討論。接下來我們看看Constellation ES.3。
Constellation ES.3系列可選SAS和SATA兩種接口,容量點(diǎn)也包括上表中沒有列出的1TB、2TB和3TB。
在SED方面,希捷ES.3除了提供普通的自加密驅(qū)動(dòng)器之外,還有通過FIPS 140-2認(rèn)證的專門型號(hào)。從機(jī)械組件的角度來講,濕度也是影響硬盤工作、存放的一個(gè)重要環(huán)境因素。筆者在多年前就曾遇到過因硬盤cost-down(降低成本)省去了內(nèi)置的干燥劑,而導(dǎo)致批量受潮損壞的案例,在這里先不做更多詳細(xì)的討論了。
Constellation ES.3應(yīng)該是第一款達(dá)到128MB緩存的傳統(tǒng)HDD。它的平均無故障時(shí)間達(dá)到了140萬小時(shí),質(zhì)保為5年。AFR這項(xiàng)我們將和后面列出的桌面硬盤進(jìn)行對(duì)比,不可恢復(fù)讀錯(cuò)誤比Constellation CS低了一個(gè)百分點(diǎn)。ES.3不僅采用原生512字節(jié)扇區(qū),而且支持520和528byte這些在部分企業(yè)存儲(chǔ)中需要用到的特殊扇區(qū)大小。
由于規(guī)格表中的這一款是6Gb/s SAS的版本,所以提供了雙端口。我們看到4TB的運(yùn)行時(shí)功率和閑置功率分別達(dá)到了11.86瓦和7.80瓦(SATA版本由于控制電路簡(jiǎn)單,4TB型號(hào)運(yùn)行時(shí)功率和閑置功率分別為11.27瓦和6.73瓦),比Constellation CS要高出不少。
Constellation ES.3的最大容量4TB需要使用5張碟片來實(shí)現(xiàn),就像上一代的Constellation ES.2 3TB那樣。
[page]
云存儲(chǔ)時(shí)代:Barracuda的逆襲?
最新的單碟1TB希捷Barracuda(ST1000DM003),我們?cè)谧罱脑u(píng)測(cè)中使用了幾塊這款硬盤
希捷公布的Barracuda尋道時(shí)間和最大持續(xù)傳輸率,比上一頁中列出的Constellation CS和ES.3都要高。這一點(diǎn)可能是企業(yè)級(jí)硬盤較為保守的原因?Barracuda的磁頭加載/卸載次數(shù)和最大不可恢復(fù)讀錯(cuò)誤與Constellation CS相同。桌面硬盤推薦的2400小時(shí)開機(jī)時(shí)間無法與企業(yè)級(jí)產(chǎn)品相比。功耗方面,Barracuda和Constellation CS相差無幾。
希捷Barracuda單碟1TB HD Tach測(cè)試截圖
如上圖,單碟1TB希捷Barracuda硬盤的外圈傳輸率確實(shí)達(dá)到了官方宣稱的210MB/s左右(內(nèi)外圈平均也有169.4MB/s),要知道早在2009年推出的希捷Cheetah 15K.7 3.5英寸15000rpm SAS驅(qū)動(dòng)器只有204MB/s。由于記錄密度的提高,如今桌面硬盤順序讀取性能進(jìn)步明顯。不過寫入傳輸率曲線(平均也有101.4MB/s)相比之下低了不少,而以前硬盤的讀寫傳輸率大都比較接近(例如下圖)。這一點(diǎn)倒是可以理解,畢竟硬盤寫入和讀取的原理不同,通過磁頭改變介質(zhì)的極性比只是感應(yīng)磁極方向的要求相對(duì)高一些。隨著記錄位單元的不斷縮小,為了保證寫入的可靠性犧牲一定的性能還是必要的。
我們還看到,隨機(jī)讀平均訪問時(shí)間測(cè)得14.1ms,減去7,200轉(zhuǎn)硬盤4.16ms的平均旋轉(zhuǎn)等待時(shí)間,隨機(jī)讀平均尋道時(shí)間應(yīng)該是9.94ms,比官方資料中的小于8.5ms還是慢了一些,有可能Constellation CS在這方面也差不多。不過相比下面列出的Barracuda XT還是要快了不少。
當(dāng)年筆者測(cè)試的希捷Barracuda XT高端桌面硬盤HD Tach截圖
也是在2009年推出的Barracuda XT 2TB,我曾經(jīng)通過測(cè)試間接證明它使用了Constellation ES的“企業(yè)級(jí)平臺(tái)”,也包括后來第二代的Barracuda XT 3TB。后來面對(duì)SSD的沖擊,希捷取消了這一產(chǎn)品線,并在2.5英寸筆記本硬盤市場(chǎng)推出Momentus XT混合硬盤。
希捷的技術(shù)人員也確認(rèn)過,Barracuda XT與Constellation ES確實(shí)來自同一平臺(tái)。但前者的尋道時(shí)間(17.0ms)確比后者(13.1ms)慢了不少,這里面是人為的因素。早些年桌面硬盤就加入了AAM(自動(dòng)噪聲管理)和相應(yīng)的功耗/發(fā)熱控制技術(shù),硬盤在工作時(shí)帶動(dòng)盤片的主軸電機(jī)不能降速,但可以通過放慢控制磁頭的音圈電機(jī)來達(dá)到目的。于是就出現(xiàn)了一些桌面硬盤產(chǎn)品的平均訪問時(shí)間,在測(cè)試中達(dá)不到標(biāo)稱值的情況(因?yàn)槌鰪S默認(rèn)設(shè)置的原因,許多產(chǎn)品又不容易修改)。
單碟1TB希捷Barracuda拆解照片
盡管從這個(gè)角度看不到碟片的數(shù)量。但盤片上那個(gè)半弧形的保護(hù)板,正是出現(xiàn)在Constellation CS上而Constellation ES家族所沒有的。總之,希捷原來是基于企業(yè)級(jí)硬盤平臺(tái)打造高端桌面產(chǎn)品;而現(xiàn)在則利用相對(duì)高容量密度、廉價(jià)和低功耗的最新桌面硬盤技術(shù),添加一些企業(yè)級(jí)特性(應(yīng)該主要是在固件上)推出定位針對(duì)性更強(qiáng)、細(xì)分企業(yè)級(jí)市場(chǎng)的產(chǎn)品系列。這就是云存儲(chǔ)時(shí)代的改變吧?
[page]
同為4TB,接口和扇區(qū)大小不盡相同
最后,我們?cè)賮砗?jiǎn)單看看硬盤市場(chǎng)上所占份額較大的另外2個(gè)品牌西數(shù)和HGST(日立環(huán)球存儲(chǔ),盡管已經(jīng)被WD收購(gòu),但仍保留獨(dú)立品牌和產(chǎn)品線),他們的近線企業(yè)級(jí)硬盤在規(guī)格上有哪些差別。
被西部數(shù)據(jù)收購(gòu)的HGST(日立環(huán)球存儲(chǔ))Ultrastar 7K4000系列,7200轉(zhuǎn)最大容量4TB
Ultrastar 7K4000只提供SATA接口而沒有SAS的版本,也就是說適用于存儲(chǔ)服務(wù)器、單控制器磁盤陣列(也包括云存儲(chǔ)?)等不需要雙端口的場(chǎng)合。“512e”就是用4KB物理扇區(qū)來模擬512字節(jié)的邏輯扇區(qū)。我們看到它的60萬次磁頭加載/卸載周期比兩款源自同一桌面平臺(tái)的希捷Barracuda和Constellation CS高了一倍,Constellation ES應(yīng)該也處于同一水平。7*24小時(shí)可用性和5年質(zhì)保都是傳統(tǒng)企業(yè)級(jí)硬盤提供的。至于200萬小時(shí)的MTBF,這個(gè)“數(shù)字”是結(jié)合公式計(jì)算出來的,大家不用太認(rèn)真。
西數(shù)最新的WD RE企業(yè)級(jí)近線硬盤,同樣是7200轉(zhuǎn)最大容量4TB
WD RE系列中分為SAS和SATA兩種接口的型號(hào),上圖中的規(guī)格簡(jiǎn)表是SAS的版本。從這份公開的資料我們只能看到用戶扇區(qū)數(shù)(可計(jì)算出邏輯扇區(qū)大?。?,而無法確定物理扇區(qū)是512字節(jié)還是4KB?它的磁頭加載/卸載周期也達(dá)到了60萬次,擁有140萬小時(shí)平均無故障時(shí)間和5年保修。不可恢復(fù)讀錯(cuò)誤實(shí)際上與希捷Constellation ES.3(1/10E15)在同一水平的基礎(chǔ)上,這里有點(diǎn)像玩數(shù)字游戲了。
功耗方面,西數(shù)列出的工作模式比較全,我們知道硬盤隨機(jī)讀寫時(shí)的耗電是最大的,因?yàn)榇蓬^一直在不停地尋道。可以看出希捷和WD/HGST在該領(lǐng)域的技術(shù)總體上處于同一水平,硬盤也早已是個(gè)成熟的產(chǎn)業(yè)了。而在高轉(zhuǎn)速企業(yè)級(jí)硬盤和新領(lǐng)域——固態(tài)混合硬盤等方面,希捷則往往起步較早并保持一定的領(lǐng)先。
關(guān)于4TB等大容量企業(yè)級(jí)硬盤引發(fā)的另一個(gè)問題——可靠性,我們將在不久之后的評(píng)測(cè)文章中討論。