存儲(chǔ)廠商面臨困惑何以解憂

責(zé)任編輯:editor03

作者:張冬

2015-01-20 13:55:16

摘自:存儲(chǔ)在線

自詡為一個(gè)見證了中國(guó)存儲(chǔ)發(fā)展的存儲(chǔ)界老混子,也不得不承認(rèn),存儲(chǔ)的發(fā)展真的是太快了,以至于還未大展宏圖,就發(fā)現(xiàn)眼前的這片森林已經(jīng)今非昔比。

自詡為一個(gè)見證了中國(guó)存儲(chǔ)發(fā)展的存儲(chǔ)界老混子,也不得不承認(rèn),存儲(chǔ)的發(fā)展真的是太快了,以至于還未大展宏圖,就發(fā)現(xiàn)眼前的這片森林已經(jīng)今非昔比。我想這也是當(dāng)前很多存儲(chǔ)廠商、集成商所面臨的困惑之一。

有很多人曾經(jīng)和我討論過諸如"我們下一步到底該做什么"的話題。有些廠商的做法很簡(jiǎn)單,一線品牌廠商做什么,就跟著做什么。這樣最保險(xiǎn),但沒有一定實(shí)力的廠商也玩不起。對(duì)于二三線廠商,事態(tài)尤為嚴(yán)重。換在幾年前,我想很多廠商的目標(biāo)都比較明確。但隨著近幾年新技術(shù)和新概念爆發(fā)式的產(chǎn)生,而存儲(chǔ)領(lǐng)域的產(chǎn)品集成開發(fā)周期又相對(duì)較長(zhǎng),導(dǎo)致了目前眾多廠商的迷茫——擔(dān)心等產(chǎn)品出來了,卻發(fā)現(xiàn)走錯(cuò)了路,或者窗口期已經(jīng)過去。

本文試圖對(duì)當(dāng)前多個(gè)存儲(chǔ)子層里的多項(xiàng)技術(shù)做簡(jiǎn)要分析來獲知它們對(duì)傳統(tǒng)體系的影響。

存儲(chǔ)介質(zhì)——閃存和SMR磁盤

機(jī)械磁盤作為在線主存儲(chǔ)介質(zhì)的地位,可以說幾十年來沒有動(dòng)搖,是各種存儲(chǔ)技術(shù)里最穩(wěn)定的一個(gè)了。然而閃存的出現(xiàn),將要改變的不僅是存儲(chǔ)介質(zhì)本身,更將會(huì)顛覆整個(gè)的存儲(chǔ)生態(tài)鏈。

閃存作為新一代存儲(chǔ)介質(zhì),相比于機(jī)械磁盤的優(yōu)點(diǎn)不必多說。一個(gè)更加值得思考的問題是,由于閃存并不像機(jī)械盤一樣需要高精尖的技術(shù),其入門門檻較低,尤其是閃存控制器的設(shè)計(jì)生產(chǎn),目前可以說是遍地開花,國(guó)內(nèi)已經(jīng)有多家自主產(chǎn)權(quán)的閃存控制器及外圍產(chǎn)品。

閃存對(duì)傳統(tǒng)的下游存儲(chǔ)廠商的影響也將會(huì)是巨大的。首先,基于機(jī)械磁盤介質(zhì)所積累成熟的傳統(tǒng)架構(gòu)基礎(chǔ)面臨崩塌,包括硬件設(shè)計(jì)比如尺寸、散熱、承重和空間布局等;也包括軟件設(shè)計(jì)比如數(shù)據(jù)布局、IO性能優(yōu)化和故障預(yù)測(cè)及恢復(fù)等。這也是為何僅僅把傳統(tǒng)存儲(chǔ)系統(tǒng)中的機(jī)械盤替換為SSD根本無(wú)法發(fā)揮出SSD性能的原因。其次,傳統(tǒng)存儲(chǔ)高大上的形象也會(huì)被閃存徹底摧毀,原本松耦合的各種大部件搭配起來的"巨型機(jī)器人"將變得非常小巧。最極端的情況甚至可以直接用一塊 PCIE Flash卡替代,連影子都消失在了服務(wù)器機(jī)箱外面。磁盤存儲(chǔ)將退居二線,成為真正的備份用二線存儲(chǔ),使用步驟或許會(huì)是"開機(jī)--備份--關(guān)機(jī)"。磁盤存儲(chǔ)將會(huì)成為下一代人眼里已徹底淘汰的產(chǎn)品,就像卡帶機(jī)一樣。再次,拖累傳統(tǒng)磁盤存儲(chǔ)的另一個(gè)包袱,就是那些華而不實(shí)的軟件功能,包括自動(dòng)精簡(jiǎn)配置、重刪、快照、分層/緩存和復(fù)制等。這些軟件功能除了其中幾個(gè)較為常用之外,其他可以說是雞肋,但為了市場(chǎng)競(jìng)爭(zhēng)又不能沒有,因而陷入惡性循環(huán)。上述軟件功能中的每一項(xiàng),毫不客氣地說,都是影響性能的。分層和緩存實(shí)際上是增加了相對(duì)性能,而降低了絕對(duì)性能。除了快照、分層和遠(yuǎn)程復(fù)制之外,其他軟件功能多數(shù)時(shí)候都不為人所用。

用戶似乎越來越追求傻快的存儲(chǔ)。這一點(diǎn)在面對(duì)"軟件定義"概念時(shí)更有說服力了,硬的更硬,軟的更軟。這更進(jìn)一步拉低了存儲(chǔ)系統(tǒng)的門檻,拋開這些包袱,利用閃存,越來越多的全閃存存儲(chǔ)廠商出現(xiàn)了,而這些全閃存存儲(chǔ)為何基本都沒有出自傳統(tǒng)一線存儲(chǔ)廠商,原因也顯而易見了。

磁存儲(chǔ)領(lǐng)域的一項(xiàng)新技術(shù)是SMR(疊瓦式磁記錄),這項(xiàng)技術(shù)提升了存儲(chǔ)密度,卻不能保證隨機(jī)寫的性能,這一點(diǎn)從原理上講更類似于固態(tài)介質(zhì)的Page與 Block之間的尷尬。希捷等磁存儲(chǔ)廠商也正在研究是否要在SMR磁盤內(nèi)實(shí)現(xiàn)類似Flash的管理方式。SMR磁盤面向一寫多讀場(chǎng)景,適用于大數(shù)據(jù)、備份等特定領(lǐng)域。下一步還有熱輔助磁記錄技術(shù),但是遲遲未能商用??磥泶糯鎯?chǔ)在性能瓶頸之后,可商用的容量瓶頸也即將到達(dá),因此磁存儲(chǔ)淡出舞臺(tái)是大勢(shì)所趨。

底層框架——芯片、底軟和通道

閃存的出現(xiàn),會(huì)影響生態(tài)鏈上所有事物,這其中也包括了最底層的芯片、底層軟件和數(shù)據(jù)通道。

芯片要有足夠強(qiáng)的處理能力來承載起閃存強(qiáng)悍的IOPS性能,包括Flash控制芯片、外圍協(xié)議控制芯片(SAS、 FC、以太網(wǎng)),以及主機(jī)CPU。芯片的提速手段有三種,第一是提高內(nèi)部數(shù)據(jù)帶寬,增加器件之間的通道數(shù)量和帶寬,第二是提升器件頻率,第三是將各個(gè)子器件進(jìn)行拆分,增加并行度,在相同電路周期內(nèi)可并發(fā)執(zhí)行更多的指令。然而,沒有免費(fèi)的午餐,上述任何一個(gè)動(dòng)作,要么會(huì)增加芯片的功耗,要么會(huì)增加面積,這些都是弊端。目前一線廠商PMC的主流存儲(chǔ)控制芯片實(shí)際功耗都控制在15W上下,即便是最新的SAS 12Gb 主控芯片,由于制造工藝的提升,功耗反而比6Gb產(chǎn)品有所降低。到目前為止,主流存儲(chǔ)芯片都是基于MIPS核心+外圍加速電路,MIPS是被公認(rèn)的 RISC通用處理器領(lǐng)域最經(jīng)典的代表,然而ARM的猛攻也滲透到了存儲(chǔ)芯片領(lǐng)域,在低端市場(chǎng)占據(jù)了席位,包括4端口SATA控制器、低端SoC等等,ARM和MIPS也會(huì)在存儲(chǔ)芯片領(lǐng)域持久對(duì)峙下去。Intel則由于功耗問題,頗有綁死x86平臺(tái)走到底的趨勢(shì),移動(dòng)終端失策,賣掉電視部門,靠 Atom在大型數(shù)據(jù)中心領(lǐng)域與ARM抗衡,不知道格局能維持多久。

底層軟件方面也是制約存儲(chǔ)性能提升的一大屏障。拿Linux為例,Block層、SCSI中間層這兩大制約IO性能發(fā)揮的重量級(jí)軟件層,在機(jī)械盤時(shí)代發(fā)揮了重要作用,然而在閃存時(shí)代,已變成了嚴(yán)重拖累性能的罪魁禍?zhǔn)住?/p>

繁冗的掃描機(jī)制、低效的互斥隊(duì)列和捉襟見肘的隊(duì)列數(shù)量、陳舊不堪的SCSI協(xié)議,這些對(duì)閃存來講都是頭疼的事情,目前閃存產(chǎn)品不得不選擇越過SCSI層而直接注冊(cè)到Block層,然而卻丟失了SCSI層提供的兼容性優(yōu)勢(shì),導(dǎo)致各家在Block下層的協(xié)議實(shí)現(xiàn)不統(tǒng)一,增加了開發(fā)成本和管理開銷。

協(xié)議接口方面,基于SCSI體系衍生而來的勢(shì)力有三股,一個(gè)是FC,另一個(gè)是SAS,還有一個(gè)是iSCSI純軟件方案。Linux開源社區(qū)最近也在研究如何優(yōu)化SCSI層的問題,看來SCSI是去是留已經(jīng)是個(gè)問題了。FC通道前端目前正在逐漸被萬(wàn)兆以太網(wǎng)殘食,而后端則在幾年前就已經(jīng)被SAS全盤端掉。 SAS之所以沒有端掉FC前端有兩個(gè)原因,其一是因?yàn)镕C前端體系并非只存在于存儲(chǔ)設(shè)備內(nèi)部,還涉及到交換機(jī),其存量市場(chǎng)并不是僅僅通過替代掉存儲(chǔ)設(shè)備的前端通道卡就可以占領(lǐng)的;其二,SAS在光傳輸方面略顯遲鈍,究其原因在于SAS光協(xié)議對(duì)于鏈路協(xié)商方面的一項(xiàng)技術(shù)實(shí)現(xiàn)爭(zhēng)議了良久,直到很晚才確定。FC 也必將淡出舞臺(tái)。然而,其接替者并非只有以太網(wǎng)或者SAS。還有另外一項(xiàng)更前瞻的通道技術(shù),那就是PCIE。目前我們所熟知的以太網(wǎng)、FC、 SAS、Infiniband等通道協(xié)議,在主機(jī)層面無(wú)一不通過PCIE接入系統(tǒng)IO總線。之前的"遠(yuǎn)距離"傳輸概念,正在變得模糊,多"遠(yuǎn)"算是" 遠(yuǎn)",如果PCIE能夠"遠(yuǎn)"到一定距離,還要以太網(wǎng)作甚?這個(gè)問題問得好。然而,PCIE 并不是萬(wàn)能的,PCIE目前缺失很多交換網(wǎng)絡(luò)特性,畢竟之前一直是在系統(tǒng)總線領(lǐng)域,出了總線,就得長(zhǎng)距離交換和路由,這方面就得靠以太網(wǎng)和TCP/IP 了。然而,同樣的理論,在目前和將來的數(shù)據(jù)中心領(lǐng)域可不見得能套用。

目前的數(shù)據(jù)中心有苗頭正在朝著緊耦合方向發(fā)展,也就是之前一個(gè)機(jī)架內(nèi)的服務(wù)器之間是松耦合的,現(xiàn)在要變得以機(jī)架為單位,機(jī)架內(nèi)部緊耦合,機(jī)架外部松耦合,此時(shí)PCIE就有用武之地了,機(jī)架內(nèi)部完全基于PCIE矩陣。這個(gè)前沿方向目前Intel以及PMC-Sierra都有研究并且有了DEMO。當(dāng)然,對(duì)SAS和SATA的兼容一定是要考慮的,SFF8639接口標(biāo)準(zhǔn)其實(shí)是一個(gè)三模式(Tri-mode)的接口,把SATA、SAS和PCIE打包到一起,后端則根據(jù)前端接入設(shè)備類型路由到SAS Expander/Controller或者PCIE Switch上去。目前看來這個(gè)接口已成定局。

數(shù)據(jù)結(jié)構(gòu)——Raid2.0、ErasureCode、分布式及開源

硬件平臺(tái)之上的軟件,也在風(fēng)起云涌的變化著。傳統(tǒng)存儲(chǔ)領(lǐng)域可炒作的概念已經(jīng)沒有了,然而創(chuàng)新又遲遲未見。Raid2.0被幾家廠商在炒作,但終歸也是RaidEE技術(shù)的升級(jí)翻版。另外, Raid2.0與現(xiàn)在多數(shù)技術(shù)一樣,只是提升了相對(duì)性能,而沒有提升絕對(duì)性能,也就是當(dāng)磁盤達(dá)到一定數(shù)量的時(shí)候,這項(xiàng)技術(shù)才會(huì)顯示出優(yōu)勢(shì),但是依然趕不上相等數(shù)量的磁盤在傳統(tǒng)模式下的絕對(duì)性能。Raid2.0對(duì)數(shù)據(jù)的處理,已經(jīng)不亞于一個(gè)文件系統(tǒng)了,過多的數(shù)據(jù)碎片影響了絕對(duì)性能,但是大量的磁盤堆砌又可以掩蓋這一事實(shí)。其所獲得的唯一一個(gè)絕對(duì)好處是重構(gòu)時(shí)間的大幅降低,然而卻犧牲了平時(shí)的絕對(duì)性能。

Erasure Code技術(shù)也不是什么新鮮事。Raid6以及RaidDP技術(shù)很早就出現(xiàn)了,那時(shí)候人們已經(jīng)發(fā)明了可以容忍更多磁盤同時(shí)損壞的技術(shù),只不過受限于隨機(jī)寫性能而沒有將其商用。但是時(shí)過境遷,大數(shù)據(jù)時(shí)代讀多寫少,再加上數(shù)據(jù)量大,RaidDP(DoubleParity)、 RaidTP(TripleParity)甚至允許更多磁盤同時(shí)損壞的算法,就又冒出頭來了。

Scale-Out是傳統(tǒng)存儲(chǔ)領(lǐng)域?qū)?quot;分布式"的一個(gè)包裝詞,然而傳統(tǒng)存儲(chǔ)理解的分布式和互聯(lián)網(wǎng)及開源領(lǐng)域所認(rèn)識(shí)的分布式骨子里還是不同的。傳統(tǒng)存儲(chǔ)廠商的分布式不是廉價(jià)的分布式,它們的分布式完全是為了解決Scale-Up模式的天花板;而互聯(lián)網(wǎng)和開源的分布式骨子里為的就是廉價(jià)。表現(xiàn)形態(tài)也不同,前者雖然實(shí)質(zhì)上也是x86服務(wù)器+分布式軟件管理層,但是依然略顯高大上。

開源的風(fēng)潮體現(xiàn)在最近的一個(gè)新概念里,那就是所謂"軟件定義"了。軟件定義讓二三線廠商師出有名,直接挑戰(zhàn)傳統(tǒng)一線大廠的權(quán)威地位,這一點(diǎn)從近期一些二三線廠商的直截了當(dāng)?shù)穆豆茄葜v即可知道,矛頭直指一線壟斷大廠,似乎在當(dāng)頭棒喝"憑什么你們就是高大上"。

用戶體驗(yàn)——接口、訪問方式及展現(xiàn)

在對(duì)存儲(chǔ)的訪問接口方面,新的訪問接口近幾年在互聯(lián)網(wǎng)的帶動(dòng)下也爆發(fā)式增長(zhǎng)。傳統(tǒng)領(lǐng)域一直在鼓吹所謂"統(tǒng)一存儲(chǔ)"鼓吹了近十多年,早就炒爛了。對(duì)象、key-value、文件、塊是目前來講主流的4種訪問形式,其中文件又包含多種子類型比如NFS、CIFS以及各種分布式文件系統(tǒng)訪問協(xié)議,塊又分為FC、SAS、iSCSI。不管訪問形式如何,它們本質(zhì)都是一樣的,都是對(duì)一串字節(jié)的請(qǐng)求和回復(fù),只不過這串字節(jié)在不同應(yīng)用場(chǎng)景下的歸類不同罷了。

在用戶體驗(yàn)方面,傳統(tǒng)存儲(chǔ)做的較差。但是隨著互聯(lián)網(wǎng)風(fēng)潮來襲,重視用戶體驗(yàn)、應(yīng)用感知、QoS等更加接近用戶層面的功能越來越受到重視。筆者之前所設(shè)計(jì)的存儲(chǔ)軟件套件SmartX Insight就是從用戶體驗(yàn)方面來入手,增強(qiáng)存儲(chǔ)系統(tǒng)在整個(gè)系統(tǒng)內(nèi)的"存在感",改變傳統(tǒng)存儲(chǔ)一副道貌岸然的樣子。我想這樣更有利于黏住用戶,從而擴(kuò)大及拓展存儲(chǔ)系統(tǒng)的生存空間和時(shí)間。

閃存與數(shù)據(jù)中心——SATA/PCIE及應(yīng)用場(chǎng)景

目前來看,數(shù)據(jù)中心對(duì)Flash的渴求主要集中在幾個(gè)固定的應(yīng)用場(chǎng)景,前端比如 CDN,ISP的帶寬是非常貴的,必須充分利用,所以硬盤必須不是瓶頸。后端則是各級(jí)緩存場(chǎng)景,包括各類分布式數(shù)據(jù)庫(kù)系統(tǒng)、分布式文件系統(tǒng)的前端基本上都是放了一級(jí)或者兩級(jí)甚至更多級(jí)的緩存,RAM畢竟還是很貴而且容量有限,主要用于第一級(jí)緩存直接應(yīng)對(duì)前端的壓力,F(xiàn)lash則可趁機(jī)占領(lǐng)一部分后置緩存空間。

數(shù)據(jù)中心對(duì)SATA接口SSD的應(yīng)用占據(jù)了總體形態(tài)的大概90%,剩下的10%主要是PCIE接口的Flash,前者基本上被Intel獨(dú)占,后者則是花開幾朵,其中也不乏國(guó)內(nèi)廠商。

PCIE Flash是大勢(shì)所趨,尤其是支持NVMe標(biāo)準(zhǔn)的設(shè)備。但是目前的形態(tài)卻不被看好,別看當(dāng)下多家在此領(lǐng)域角逐。當(dāng)下形態(tài)存在的問題是維護(hù)困難、版型太大,這些均不符合數(shù)據(jù)中心對(duì)硬件資源的要求——一個(gè)是維護(hù)方便,另一個(gè)就是資源性能和容量粒度要盡可能低以便于靈活拼搭。而基于SFF8639接口標(biāo)準(zhǔn)的設(shè)備相信馬上就會(huì)遍地開花。綜上所述,各種新技術(shù)對(duì)存儲(chǔ)系統(tǒng)的方方面面產(chǎn)生了很大影響,如今IT界概念頻出,五色繽紛,眾多的存儲(chǔ)廠商們唯有分析歷史、分析當(dāng)前,才能看清未來。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)