2011年年底,數(shù)據(jù)管理學(xué)會(Data Management Institute)研究了來自3000多家大型和中小型企業(yè)的調(diào)查數(shù)據(jù),得出如下的結(jié)論:平均起來,這些企業(yè)正浪費(fèi)高達(dá)70%的磁盤存儲容量,保存那些毋須保留在昂貴的磁盤基礎(chǔ)設(shè)施上的數(shù)據(jù)。由于重新引用率低,甚至修改率低,大約40%的數(shù)據(jù)是惰性的,可能適合歸檔。駐留了孤立數(shù)據(jù)、違禁數(shù)據(jù)或者重復(fù)數(shù)據(jù)和垃圾等另外30%的磁盤容量,可以運(yùn)用數(shù)據(jù)保健(data hygiene)的方式全部從存儲中清除。
那么,對創(chuàng)建存儲回收戰(zhàn)略(消除毋須駐留在磁盤的數(shù)據(jù)以便這些數(shù)據(jù)占用的大量空間可以被歸還至生產(chǎn)用途的步驟)鮮有指引的原因何在?部分的解釋可能是:廠商寧愿消費(fèi)者依附于我所稱的多力多滋(Doritos)模式(還記得那句 “嚼碎所有你想嚼的。我們會獲得更多!”老廣告詞嗎?)
然而,由于公司政治的原因,簡單的真相是:數(shù)據(jù)分類可能超出這些公司的權(quán)限;也許他們無法規(guī)定高薪的銷售人員可以使用空間的大小,或者他可以放置文件的時間的長短?;蛘咚麄冋J(rèn)為這可能超出他們的技能范圍?;蛘咚麄兛赡苋鄙偃藛T、硬件、時間或者預(yù)算之類的資源來完成。
無論如何,要解決浪費(fèi)的磁盤存儲容量的問題,你需要至少做到以下其一:
· 判斷重新引用率低的數(shù)據(jù)資產(chǎn)的戰(zhàn)略(因此可以安全地或者無干擾地從昂貴的存儲被移到便宜的、更高容量的存儲。)
· 把較舊的數(shù)據(jù)資產(chǎn)遷移到容量存儲的戰(zhàn)略(或者,如果有重復(fù)數(shù)據(jù)和垃圾,把它們?nèi)繌拇鎯A(chǔ)設(shè)施移除。)
我認(rèn)為,選擇歸結(jié)為:進(jìn)行數(shù)據(jù)資產(chǎn)的粒度分析(即第一個戰(zhàn)略,個人認(rèn)為其更為有效),或者使用簡單的元數(shù)據(jù)把較舊的、不經(jīng)常被引用的數(shù)據(jù)推向比較便宜的存儲介質(zhì)。
考慮到很多公司禁止刪除任何數(shù)據(jù),致力于第二個戰(zhàn)略可能更有利。為了把不常被訪問的數(shù)據(jù)資產(chǎn)從生產(chǎn)存儲中遷出并移到歸檔磁盤存儲容量或者磁帶存儲,從而把昂貴的生產(chǎn)磁盤容量預(yù)留用于新的和活躍的數(shù)據(jù),一個方法是部署簡單的分層存儲管理(HSM,hierarchical storage management)。通常很多廠商提供HSM只是作為一個軟件功能,要么是較大的存儲管理軟件套件的一部分,要么是獨(dú)立的工具軟件。IBM的Tivoli Storage Manager和EverStor的Hiarc HSM是套件部件方式的兩個例子,而Crossroads Systems的 FileStor-HSM是優(yōu)秀工具的一個例子。最好使用與硬件無關(guān)的軟件,而不是使用某些陣列所交付的硬件的、增值的HSM功能,以避免昂貴的廠商鎖定限制了歸檔平臺的選擇。
大多數(shù)軟件產(chǎn)品能夠設(shè)定數(shù)據(jù)應(yīng)該何時被移動以及數(shù)據(jù)應(yīng)該被移動至何處的策略。這些策略通常由元數(shù)據(jù)的變動來觸發(fā)。如果元數(shù)據(jù)域DATE LAST ACCESSED以及/或者DATE LAST MODIFIED超出設(shè)定的限制(即30、60或者90天之后),與元數(shù)據(jù)相關(guān)的文件自動地被移到它的目的地址。
隨著線性磁帶文件系統(tǒng)(LTFS,Linear Tape File System)和分區(qū)磁帶介質(zhì)(IBM、Oracle的磁帶以及LTO 5或以上)的出現(xiàn),另外一個選擇是同時向磁盤以及使用LTFS的磁帶寫入文件。然后,當(dāng)數(shù)據(jù)重新被引用率低于設(shè)定的限制的時候,就刪除磁盤上的拷貝,文件繼續(xù)留在LTFS磁帶上歸檔就可以了。
這種戰(zhàn)略以占據(jù)容量的數(shù)據(jù)為重點(diǎn),在毋須刪除數(shù)據(jù)的情況下提供緩解主存儲擁擠的方法。分層存儲管理一般優(yōu)于壓縮和重復(fù)數(shù)據(jù)刪除等戰(zhàn)術(shù)性的容量管理技術(shù),它們有時被用于把更多的存儲“硬塞”到同樣大小的磁盤中。HSM較優(yōu)的原因在于它在本質(zhì)上不改動數(shù)據(jù)(有些類型的數(shù)據(jù)涉及法律問題),使用所有數(shù)據(jù)(重復(fù)數(shù)據(jù)刪除忽略被加密或者已被壓縮的數(shù)據(jù)),不會由于壓縮或者重復(fù)數(shù)據(jù)刪除軟件的問題而將數(shù)據(jù)置于損失的風(fēng)險(xiǎn)之中。
確保你的生產(chǎn)存儲避免惰性和違禁數(shù)據(jù),也可以向鏡像和復(fù)制乃至備份的數(shù)據(jù)保護(hù)流程注入新的活力,因?yàn)橹挥猩a(chǎn)數(shù)據(jù)才會接觸那些數(shù)據(jù)保護(hù)服務(wù)。已經(jīng)被移動到容量存儲的數(shù)據(jù)以及不經(jīng)常發(fā)生變化的數(shù)據(jù)通常更少被復(fù)制用于保護(hù),而且復(fù)制并不影響生產(chǎn)的工作負(fù)載。