眾所周知,管理PB級(jí)數(shù)據(jù)要比管理TB級(jí)數(shù)據(jù)要難的多。而如果管理不當(dāng),可能會(huì)為組織帶來(lái)很大的損失,更糟糕的是如果主導(dǎo)數(shù)據(jù)丟失,甚至可以讓組織可能損失上百萬(wàn)美元。對(duì)于TB級(jí)數(shù)據(jù),組織可以忽略或采用暴力破解技術(shù),而這在處理PB級(jí)數(shù)據(jù)時(shí)將會(huì)成為不可逾越的障礙。管理這一級(jí)別數(shù)據(jù)的關(guān)鍵是了解所面臨的障礙是什么,并以專注的管理方式為他們做好準(zhǔn)備。
大量數(shù)據(jù)中心面臨的最大挑戰(zhàn)是非結(jié)構(gòu)化數(shù)據(jù)的極大增長(zhǎng)。雖然結(jié)構(gòu)化數(shù)據(jù)在過(guò)去10至20年間有所增長(zhǎng),但在過(guò)去幾年中,非結(jié)構(gòu)化數(shù)據(jù)的來(lái)源以及人們使用所述數(shù)據(jù)的能力已經(jīng)顯著增加。非結(jié)構(gòu)化數(shù)據(jù)管理面臨的挑戰(zhàn)之一是,通常很難確定何時(shí)刪除它。
例如,從以往的會(huì)計(jì)年度選擇所有財(cái)務(wù)記錄,將其歸檔并從主存儲(chǔ)系統(tǒng)中刪除是非常容易的。用非結(jié)構(gòu)化數(shù)據(jù)來(lái)做這個(gè)并不是那么簡(jiǎn)單。會(huì)計(jì)所面臨的其中一個(gè)挑戰(zhàn)是非結(jié)構(gòu)化數(shù)據(jù)通常由無(wú)數(shù)人擁有的,而不是一個(gè)統(tǒng)一的應(yīng)用程序。
組織的業(yè)務(wù)環(huán)境中可能存在數(shù)千個(gè)用戶和數(shù)百個(gè)應(yīng)用程序,用于創(chuàng)建非結(jié)構(gòu)化數(shù)據(jù),并且當(dāng)一條非結(jié)構(gòu)化數(shù)據(jù)變得有用時(shí),通常對(duì)此并不清楚,因此沒有人想要?jiǎng)h除任何內(nèi)容。缺乏具體的問(wèn)責(zé)制導(dǎo)致大部分?jǐn)?shù)據(jù)處于非活動(dòng)狀態(tài),而這與數(shù)據(jù)占用空間無(wú)關(guān)。只要組織依靠數(shù)據(jù)創(chuàng)建者來(lái)識(shí)別和遷移那些陳舊的和未使用的數(shù)據(jù),那么非活動(dòng)數(shù)據(jù)將始終是一個(gè)問(wèn)題。
當(dāng)人們查看備份系統(tǒng)的問(wèn)題,主存儲(chǔ)系統(tǒng)日益膨脹的問(wèn)題就會(huì)變得更加令人關(guān)注。由于大多數(shù)備份系統(tǒng)都處理所有非結(jié)構(gòu)化數(shù)據(jù),因此都會(huì)使用相同的策略來(lái)備份非常重要的數(shù)據(jù)和非活動(dòng)數(shù)據(jù)。由于數(shù)據(jù)是混合的,所以根本無(wú)法處理所有數(shù)據(jù)。許多人每周進(jìn)行全面?zhèn)浞?,然后進(jìn)行每日增量備份,保留至少六個(gè)月,也許可能是一年或更長(zhǎng)時(shí)間。
如果保留至少90天的每周完整備份,就會(huì)看到12份無(wú)人關(guān)注的數(shù)據(jù)副本。如果存儲(chǔ)該數(shù)據(jù)的現(xiàn)場(chǎng)和非現(xiàn)場(chǎng)副本,就會(huì)查看到該數(shù)據(jù)的24個(gè)副本,其中大部分是非活動(dòng)的。對(duì)于一個(gè)2TB的組織數(shù)據(jù)來(lái)說(shuō),這將會(huì)存儲(chǔ)48TB的數(shù)據(jù),當(dāng)然很多數(shù)據(jù)是可管理的。而這種存儲(chǔ)的工作數(shù)據(jù),48TB數(shù)據(jù)大約采用十幾個(gè)磁帶介質(zhì)或硬盤驅(qū)動(dòng)器進(jìn)行存儲(chǔ)。但對(duì)于1PB客戶來(lái)說(shuō),每年24,000TB的數(shù)據(jù)或大約采用6000個(gè)存儲(chǔ)介質(zhì)進(jìn)行存儲(chǔ)。
存儲(chǔ)在備份系統(tǒng)上的非活動(dòng)數(shù)據(jù)的額外副本會(huì)產(chǎn)生許多不必要的后果。如果組織正在使用磁盤存儲(chǔ),則此數(shù)據(jù)的存儲(chǔ)和復(fù)制具有與之相關(guān)的成本。如果組織的存儲(chǔ)不使用重復(fù)數(shù)據(jù)刪除,那么存儲(chǔ)這些額外的數(shù)據(jù)副本的成本可能是個(gè)天文數(shù)字。如果組織使用重復(fù)數(shù)據(jù)刪除技術(shù),這些成本將會(huì)有點(diǎn)混淆。盡管組織的重復(fù)數(shù)據(jù)刪除存儲(chǔ)系統(tǒng)能夠在存儲(chǔ)一個(gè)副本的空間中存儲(chǔ)20個(gè)副本,但是這些會(huì)收取一定費(fèi)用,此外組織還需為額外的存儲(chǔ)空間付費(fèi),只是以不同的方式支付。有些人這么說(shuō):重復(fù)數(shù)據(jù)刪除系統(tǒng)使1TB存儲(chǔ)看起來(lái)像20TB的存儲(chǔ)空間,但是它們只收取10TB的存儲(chǔ)空間。這意味著他們已經(jīng)弄清楚如何收取10TB的存儲(chǔ)空間的費(fèi)用,而提供的卻是1TB的存儲(chǔ)空間。
在備份系統(tǒng)中使用重復(fù)數(shù)據(jù)刪除的大多數(shù)組織也在方程式的目標(biāo)端執(zhí)行,這意味著對(duì)非活動(dòng)數(shù)據(jù)的重復(fù)完全備份仍會(huì)在備份客戶端產(chǎn)生問(wèn)題。完全備份對(duì)正在備份的系統(tǒng)和發(fā)送備份的網(wǎng)絡(luò)具有性能方面影響,因此,重復(fù)的非活動(dòng)數(shù)據(jù)的完全備份會(huì)使組織的花費(fèi)更多,因?yàn)樾枰?gòu)買更強(qiáng)大的服務(wù)器和更快的網(wǎng)絡(luò)。
在數(shù)據(jù)還原過(guò)程中也會(huì)出現(xiàn)備份非活動(dòng)數(shù)據(jù)的挑戰(zhàn)??紤]一個(gè)具有PB級(jí)數(shù)據(jù)的數(shù)據(jù)中心的場(chǎng)景,其中900TB數(shù)據(jù)是活動(dòng)的。恢復(fù)1PB的數(shù)據(jù)是一項(xiàng)重大的任務(wù),需要相當(dāng)長(zhǎng)的時(shí)間。想象一下,如果只需要恢復(fù)組織實(shí)際使用的100TB數(shù)據(jù),那么這種恢復(fù)是不是要快得多?
用戶從不刪除任何東西所帶來(lái)的另一個(gè)挑戰(zhàn)是,當(dāng)真正需要的時(shí)候很難找到任何東西。這使所有的存儲(chǔ)數(shù)據(jù)就是像屋子里放滿雜物的抽屜,很難找到想要找的東西。就會(huì)發(fā)現(xiàn)不再使用的手機(jī)充電器,回形針,舊電池,發(fā)夾等雜和盤托出,什么都有,但就沒有所要找的東西。主存儲(chǔ)系統(tǒng)也采用這種相同的方式,因此當(dāng)填充大多數(shù)不活動(dòng)的數(shù)據(jù)時(shí),很難找到活動(dòng)的數(shù)據(jù)文件。
此外,即使一個(gè)用戶在筆記本電腦中試圖查找文件也會(huì)存在這個(gè)問(wèn)題。想象一下,當(dāng)人們談?wù)摂?shù)千個(gè)用戶和PB級(jí)數(shù)據(jù)時(shí),這個(gè)問(wèn)題是多么的巨大。這能夠?qū)е轮匾奈募G失,使它們質(zhì)上毫無(wú)價(jià)值。結(jié)果是用戶將重復(fù)他們的努力,并重新創(chuàng)建文件,因此這讓非結(jié)構(gòu)化數(shù)據(jù)問(wèn)題的增長(zhǎng)變得更加糟糕。
具有PB級(jí)數(shù)據(jù)的規(guī)模更大的企業(yè)同樣也存在這樣的問(wèn)題,他們通常面臨不同的用戶在多個(gè)位置創(chuàng)建和使用不同的文件中的問(wèn)題。他們可能希望能夠分享一些數(shù)據(jù),但是對(duì)于是PB級(jí)數(shù)據(jù)來(lái)說(shuō),這是相當(dāng)困難的。這也加劇了“垃圾抽屜”問(wèn)題。在垃圾抽屜里找到什么東西很難,但如果不確定在哪個(gè)垃圾抽屜來(lái)找時(shí),那就更難了。
確認(rèn)和解決非結(jié)構(gòu)化數(shù)據(jù)問(wèn)題
解決非結(jié)構(gòu)化數(shù)據(jù)問(wèn)題的唯一方法就是承認(rèn)它的存在。承認(rèn)在大環(huán)境中很難找到文件,甚至更難共享。確認(rèn)計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)資源的很大一部分用于存儲(chǔ)、復(fù)制和備份非活動(dòng)數(shù)據(jù)。
解決這些問(wèn)題的一個(gè)方法是創(chuàng)建一個(gè)全局統(tǒng)一的文件系統(tǒng),將所有上述問(wèn)題考慮在內(nèi)。這并不能解決用戶創(chuàng)建數(shù)百萬(wàn)個(gè)文件并將它們永遠(yuǎn)留在那里的問(wèn)題,但它至少把問(wèn)題放在一個(gè)可以集中管理和處理問(wèn)題的保護(hù)傘下。出現(xiàn)一次問(wèn)題,就解決一次,而不是在企業(yè)中多次解決這些問(wèn)題。
是取消存檔的時(shí)候嗎?
設(shè)計(jì)這么大的文件系統(tǒng)應(yīng)該通過(guò)高級(jí)元數(shù)據(jù)進(jìn)行集成搜索。用戶可以通過(guò)很多不同的元數(shù)據(jù)輕松地搜索,以便找到他們正在處理的文件。他們當(dāng)然會(huì)繼續(xù)擁有通常使用的文件系統(tǒng)語(yǔ)義,使它們能夠創(chuàng)建目錄或子目錄來(lái)幫助他們整理他們的文件。具有聯(lián)合搜索的單個(gè)文件系統(tǒng)還將允許他們查找其他人正在處理與他們感興趣的元數(shù)據(jù)相匹配的文件。
最重要的是,為解決這個(gè)問(wèn)題而設(shè)計(jì)的文件系統(tǒng)必須理解活動(dòng)和非活動(dòng)的數(shù)據(jù),它必須以不同的方式解決。最明顯的做法是自動(dòng)識(shí)別并將非活動(dòng)數(shù)據(jù)遷移到成本更低的自我保護(hù)對(duì)象存儲(chǔ)。這將解決上述一些問(wèn)題,包括在主存儲(chǔ)和備份存儲(chǔ)中的空間浪費(fèi)。了解活動(dòng)和非活動(dòng)數(shù)據(jù)之間的差異的文件系統(tǒng)也有助于更容易地搜索文件,因?yàn)檫@是可以用于搜索的元數(shù)據(jù)之一。
一個(gè)單一的全局文件系統(tǒng)也可以幫助世界各地的用戶共享數(shù)據(jù)。多個(gè)辦公室的用戶可以搜索同一個(gè)全局文件系統(tǒng),找到他們正在尋找的數(shù)據(jù)類型,并立即訪問(wèn)它,如果他們擁有適當(dāng)?shù)臋?quán)限的話。由于全局文件系統(tǒng)理解非活動(dòng)數(shù)據(jù)的概念,所以搜索(如果用戶需要的話)也可以包括非活動(dòng)數(shù)據(jù)。
將非活動(dòng)數(shù)據(jù)遷移到成本更低的對(duì)象存儲(chǔ)的簡(jiǎn)單行為也釋放了備份系統(tǒng)的壓力。它使備份和恢復(fù)更快,因?yàn)樗鼈儾槐靥幚矸腔顒?dòng)數(shù)據(jù),因此也節(jié)省了大量的存儲(chǔ)空間。有些人認(rèn)為存儲(chǔ)在自保護(hù)對(duì)象存儲(chǔ)中的數(shù)據(jù)根本不需要備份。如果用戶決定備份,可以這樣做,以識(shí)別其性質(zhì),并在備份系統(tǒng)中存儲(chǔ)少得多的非活動(dòng)數(shù)據(jù)副本。
這個(gè)問(wèn)題已經(jīng)存在多年。企業(yè)似乎對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的渴望是永無(wú)止境的,IT應(yīng)用程序開發(fā)人員正在開發(fā)利用非結(jié)構(gòu)化數(shù)據(jù)的新方法,使得擁有這樣的數(shù)據(jù)更具吸引力。非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)不太可能很快消失,所以用戶最好的辦法就是解決問(wèn)題。一個(gè)很好的方法是采用一個(gè)全局文件系統(tǒng),用于處理問(wèn)題,這包括理解元數(shù)據(jù)以及將非活動(dòng)數(shù)據(jù)自動(dòng)遷移到成本較低的對(duì)象存儲(chǔ)。