數(shù)據(jù)保護(hù):大數(shù)據(jù)分析不容忽視的問題

責(zé)任編輯:hli

2012-05-03 14:27:25

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

數(shù)據(jù)保護(hù)往往是數(shù)據(jù)中心遺忘的部分,在大數(shù)據(jù)技術(shù)的推出上也是如此。人們通常在事后才想到數(shù)據(jù)保護(hù),特別是和大數(shù)據(jù)有關(guān)的方面,如大數(shù)據(jù)分析。

企業(yè)網(wǎng)D1Net 2012年5月3日 數(shù)據(jù)保護(hù)往往是數(shù)據(jù)中心遺忘的部分,在大數(shù)據(jù)技術(shù)的推出上也是如此。人們通常在事后才想到數(shù)據(jù)保護(hù),特別是和大數(shù)據(jù)有關(guān)的方面,如大數(shù)據(jù)分析。

關(guān)于大數(shù)據(jù)分析,首先,它有一個(gè)非常獨(dú)特的樣本集--例如,一個(gè)每30秒檢測土壤樣品一次的設(shè)備,一個(gè)每分鐘拍攝數(shù)千張圖片的相機(jī),或記錄數(shù)百萬條短信的手機(jī)呼叫中心。所有這些數(shù)據(jù)都在某一時(shí)刻是獨(dú)一無二的,如果失去了就不可能再重現(xiàn)。

這種獨(dú)特性也意味著數(shù)據(jù)是不可能重復(fù)刪除的。正如我在最近的一篇文章中所討論的那樣,你可能需要停止重復(fù)刪除,或者,在這樣的環(huán)境下重復(fù)數(shù)據(jù)刪除的效率非常低。這意味著,相比你可能利用高效的重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行計(jì)算的其他備份情況,備份設(shè)備的容量可能要更接近真實(shí)數(shù)據(jù)集。而更大的數(shù)據(jù)集,意味著更大的遵約挑戰(zhàn)。

大數(shù)據(jù)的黑暗面:數(shù)據(jù)歸檔、保存與備份。

使大量文件可以在大數(shù)據(jù)分析環(huán)境下得以保存也是一個(gè)挑戰(zhàn)。為了備份應(yīng)用程序和設(shè)備,企業(yè)處理了大量這樣的文件。備份服務(wù)器和備份設(shè)備需要很大的帶寬,接收設(shè)備必須在數(shù)據(jù)可以交付使用的情況下攝取數(shù)據(jù)。他們還需要大量功能強(qiáng)大的CPU來處理這數(shù)十億文件。

還有一個(gè)需要考慮的因素是大數(shù)據(jù)的數(shù)據(jù)庫組件。分析信息通常被加工成一個(gè)Oracle或Hadoop環(huán)境下的某些東西,所以這種環(huán)境保護(hù)可能是需要的。這意味著少量的大文件需要進(jìn)行備份。

這是一個(gè)情況最糟糕時(shí)的高性能混合工作負(fù)載器:數(shù)十億小文件,和與小文件相比較少的大文件,可能打破許多備份設(shè)備的限制,找到一個(gè)全速運(yùn)行的、使用重復(fù)數(shù)據(jù)刪除技術(shù)、不會(huì)影響性能,并可以擴(kuò)展可能是大數(shù)據(jù)備份市場最大挑戰(zhàn)的容量的配置,來攝取混合工作負(fù)載數(shù)據(jù)。你可能會(huì)考慮磁帶,如果是這樣,磁盤備份廠商就需要知道如何使用它。

大數(shù)據(jù)的其他形式,大數(shù)據(jù)歸檔,如果被正確設(shè)計(jì)的話,應(yīng)該是一個(gè)需要討論的問題。如果設(shè)計(jì)使用磁帶作為歸檔文件的一部分,那么備份就可以成為工作流的一部分。為大數(shù)據(jù)歸檔環(huán)境設(shè)計(jì)存儲(chǔ)基礎(chǔ)設(shè)施,將是未來的主要課題。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)