四大發(fā)展趨勢(shì)不容忽視
地球上每分每秒都在產(chǎn)生新的數(shù)據(jù)。預(yù)測(cè)顯示,到2018年,整個(gè)世界的數(shù)據(jù)總量將會(huì)達(dá)到44ZB(1ZB=10億TB)。伴隨著數(shù)據(jù)量的劇增,數(shù)據(jù)的存儲(chǔ)和訪問(wèn)策略也開(kāi)始分化。業(yè)界根據(jù)數(shù)據(jù)的訪問(wèn)頻度將數(shù)據(jù)分為熱數(shù)據(jù)、溫?cái)?shù)據(jù)和冷數(shù)據(jù)。Facebook對(duì)圖片數(shù)據(jù)訪問(wèn)分析顯示,82%的訪問(wèn)都集中在近三個(gè)月內(nèi)產(chǎn)生的8%的新數(shù)據(jù)上,絕大部分?jǐn)?shù)據(jù)在迅速變“冷”。面對(duì)冷數(shù)據(jù)量不斷增多的趨勢(shì),冷數(shù)據(jù)的存儲(chǔ)成為存儲(chǔ)領(lǐng)域的一個(gè)重要細(xì)分市場(chǎng)。不久前,數(shù)據(jù)中心聯(lián)盟發(fā)布《冷存儲(chǔ)定制化服務(wù)器白皮書(shū)》,指出了冷存儲(chǔ)服務(wù)器發(fā)展的四大趨勢(shì)。
白皮書(shū)認(rèn)為,冷存儲(chǔ)是指存儲(chǔ)冷數(shù)據(jù)的容量大、性能要求不高、成本低廉的永久在線的存儲(chǔ)介質(zhì)。當(dāng)前,冷數(shù)據(jù)存儲(chǔ)已經(jīng)成為存儲(chǔ)領(lǐng)域的重要細(xì)分市場(chǎng),并且呈現(xiàn)出四大發(fā)展趨勢(shì)。
第一,數(shù)據(jù)體量增速繼續(xù)加快。過(guò)去幾年,視頻、社交等數(shù)據(jù)發(fā)生了爆炸式增長(zhǎng),可以預(yù)計(jì),未來(lái)這樣的增長(zhǎng)還將繼續(xù)。
第二,冷存儲(chǔ)將分化出更精細(xì)的門類以及更個(gè)性化的成本和Qos控制。目前,市場(chǎng)對(duì)冷存儲(chǔ)的分類比較粗放,然而視頻、圖片、文檔、郵件、監(jiān)控、日志、社交、網(wǎng)盤(pán)等不同數(shù)據(jù)的讀寫(xiě)、訪問(wèn)及保留要求都有所區(qū)別,因此可對(duì)系統(tǒng)設(shè)計(jì)的性能和成本進(jìn)行進(jìn)一步的優(yōu)化。
第三,對(duì)冷數(shù)據(jù)進(jìn)行分析和挖掘的需求不斷增長(zhǎng)。目前,冷數(shù)據(jù)和大數(shù)據(jù)是兩個(gè)概念,承載的服務(wù)器硬件也完全不同。然而,隨著冷數(shù)據(jù)價(jià)值不斷得到認(rèn)可,對(duì)其進(jìn)行離線檢索和挖掘的需求也會(huì)產(chǎn)生,這就需要新的硬件和軟件構(gòu)架去解決這些問(wèn)題。
第四,軟件定義存儲(chǔ),方便對(duì)冷數(shù)據(jù)進(jìn)行復(fù)制、遷移和擴(kuò)容。隨著存儲(chǔ)硬件成本不斷降低,把數(shù)據(jù)從低密度高功耗的舊服務(wù)器中遷移出來(lái)成為降低運(yùn)營(yíng)成本的有效途徑。同時(shí),隨著冷數(shù)據(jù)種類的不斷細(xì)分,某些重要的冷數(shù)據(jù)也可能需要在多數(shù)據(jù)中心進(jìn)行災(zāi)備。此外,企業(yè)業(yè)務(wù)的不斷變更也可能需要數(shù)據(jù)在公有云和專有云之間進(jìn)行遷移。目前的硬件和軟件對(duì)于這么大規(guī)模的遷移還缺乏有效的解決方案,未來(lái)需要進(jìn)一步利用軟件定義存儲(chǔ)加以解決。
白皮書(shū)同時(shí)指出,當(dāng)前,在冷存儲(chǔ)系統(tǒng)設(shè)計(jì)和應(yīng)用中,存在三大問(wèn)題:一、處理器/硬盤(pán)的比率。給定處理器比率越低則系統(tǒng)成本越低。然而,其副作用是一旦處理器失效,會(huì)有更多的數(shù)據(jù)不可訪問(wèn)。系統(tǒng)設(shè)計(jì)者需要權(quán)衡,并采用軟件手段減少處理器失效后的不良后果。二、功耗控制。系統(tǒng)的軟硬件節(jié)能方案可能會(huì)增加硬件成本,并增大數(shù)據(jù)訪問(wèn)的延遲。系統(tǒng)設(shè)計(jì)者需要在CAPEX、OPEX和SLA之間進(jìn)行取舍。三、數(shù)據(jù)塊編碼方式。選用適當(dāng)?shù)募m刪碼,可以對(duì)硬盤(pán)數(shù)據(jù)利用率、數(shù)據(jù)可用性及數(shù)據(jù)重構(gòu)時(shí)間等多個(gè)目標(biāo)進(jìn)行有效的優(yōu)化。
統(tǒng)計(jì)顯示,熱數(shù)據(jù)、溫?cái)?shù)據(jù)和冷數(shù)據(jù)占總數(shù)據(jù)量的比例約為5%、15%、80%。當(dāng)前,各類數(shù)據(jù)的存儲(chǔ)和訪問(wèn)策略正在迅速分化,數(shù)據(jù)分層趨勢(shì)加劇。一般情況下,熱數(shù)據(jù)被放到內(nèi)存或者SSD中,而冷數(shù)據(jù)被放入低轉(zhuǎn)速HDD,甚至硬盤(pán)被置于長(zhǎng)期下電狀態(tài),也有業(yè)界廠商考慮將藍(lán)光用于冷數(shù)據(jù)。
白皮書(shū)認(rèn)為,今天冷數(shù)據(jù)的應(yīng)用特征正在越來(lái)越清晰。一、數(shù)據(jù)的訪問(wèn)頻率很低,但是用戶仍想保留這些數(shù)據(jù);二、相應(yīng)時(shí)間要求隨著應(yīng)用需求的減少而逐漸降低;三、單位數(shù)據(jù)量要求的系統(tǒng)寬帶低;四、數(shù)據(jù)量巨大;五、對(duì)于特定的數(shù)據(jù)需要備份、存檔等。
值得一提的是,大數(shù)據(jù)技術(shù)的應(yīng)用正在推動(dòng)冷存儲(chǔ)的發(fā)展。白皮書(shū)指出,不同行業(yè)應(yīng)用場(chǎng)景對(duì)于冷存儲(chǔ)的要求不盡相同。現(xiàn)在企業(yè)正逐步加大對(duì)大數(shù)據(jù)的投資,來(lái)識(shí)別用戶和運(yùn)營(yíng)趨勢(shì),從而獲得重要業(yè)務(wù)洞察能力。隨著大數(shù)據(jù)的快速發(fā)展,可以支持公司通過(guò)分析來(lái)自不同地方的大量信息,獲得重要見(jiàn)解。大數(shù)據(jù)的分析也可以運(yùn)用到多個(gè)冷存儲(chǔ)使用情形中,比如:在備份中,如果信息被保存于本地而非場(chǎng)外,典型的備份工具則無(wú)法區(qū)分這些信息,通過(guò)大數(shù)據(jù)分析可以篩選出大量數(shù)據(jù),以確定哪一項(xiàng)目發(fā)生了變化,因而需要備份,這有助于節(jié)約時(shí)間,同時(shí)減少處理容量和帶寬。