企業(yè)為了從其Hadoop分析投資中獲取最大價(jià)值,企業(yè)需要富有彈性的大數(shù)據(jù)存儲(chǔ)基礎(chǔ)架構(gòu)。在傳統(tǒng)Hadoop集群中,用戶必須依賴于自定義的子數(shù)據(jù)塊CRC校驗(yàn)和來提供硬件層數(shù)據(jù)保護(hù),并且在HDFS層使用鏡像技術(shù)以保持某種級(jí)別的數(shù)據(jù)冗余。但是,在規(guī)模較大的情況下,這會(huì)成為一個(gè)非常高成本的方案。如果通過EMC Isilon作為存儲(chǔ)層,Isilon的數(shù)據(jù)保護(hù)是在OneFS文件系統(tǒng)級(jí)別實(shí)施的,因此要使新的保護(hù)和性能方案可用,只需執(zhí)行OneFS軟件升級(jí)即可。OneFS使用經(jīng)過廣泛驗(yàn)證的Reed-Solomon擦除編碼算法來執(zhí)行其奇偶校驗(yàn)保護(hù)計(jì)算。在文件界別應(yīng)用保護(hù),使得集群可以快速高效地恢復(fù)數(shù)據(jù)。信息節(jié)點(diǎn)、目錄和其他元數(shù)據(jù)在于其引用的數(shù)據(jù)塊相同或更高的級(jí)別進(jìn)行保護(hù)。由于所有數(shù)據(jù)、元數(shù)據(jù)和向前糾錯(cuò)(FEC)數(shù)據(jù)跨多個(gè)節(jié)點(diǎn)條帶化,因此不需要專用的奇偶校驗(yàn)驅(qū)動(dòng)器。這不僅可以防止出現(xiàn)單點(diǎn)故障和瓶頸,還使文件重建成為一個(gè)高度并行化的過程。
OneFS還支持多種混合保護(hù)方案。這包括N+2:1和N+3:1,前者可針對(duì)兩個(gè)驅(qū)動(dòng)器故障或者一個(gè)節(jié)點(diǎn)故障提供保護(hù),后者可針對(duì)三個(gè)驅(qū)動(dòng)器故障或一個(gè)節(jié)點(diǎn)故障提供保護(hù)。對(duì)于高密度節(jié)點(diǎn)配置而言,這些保護(hù)方案特別有用。萬一發(fā)生多個(gè)設(shè)備同時(shí)故障的情況,以至于文件“超過了其保護(hù)級(jí)別”,則OneFS將盡可能重新保護(hù)所有可保護(hù)的內(nèi)容,并且將與受影響的個(gè)別文件相關(guān)的錯(cuò)誤報(bào)告到Isilon集群的日志。
Isilon還支持多項(xiàng)保證數(shù)據(jù)可靠性功能,例如:
日志文件系統(tǒng):每個(gè)Isilon節(jié)點(diǎn)都配備了一個(gè)由雙電池支持的NVRAM卡,以保護(hù)節(jié)點(diǎn)的文件系統(tǒng)。主動(dòng)節(jié)點(diǎn)/設(shè)備故障:OneFS將主動(dòng)刪除任何達(dá)到特點(diǎn)的已檢測(cè)ECC錯(cuò)誤閥值的驅(qū)動(dòng)器,自動(dòng)重建該驅(qū)動(dòng)器中的數(shù)據(jù)并將其定位至該集群中的其他位置。整個(gè)過程完全自動(dòng)化,無需人工干預(yù)。Isilon數(shù)據(jù)完整性:ISI數(shù)據(jù)完整性(IDI)是一種通過32位CRC校驗(yàn)和防止文件系統(tǒng)結(jié)構(gòu)損壞的OneFS過程。所有Isilon數(shù)據(jù)塊(包括文件和元數(shù)據(jù))都利用校驗(yàn)和驗(yàn)證。協(xié)議校驗(yàn)和:OneFS為遠(yuǎn)程數(shù)據(jù)塊管理(RBM)協(xié)議數(shù)據(jù)提供了校驗(yàn)和驗(yàn)證。RBM是Isilon開發(fā)的機(jī)遇RPC的單播協(xié)議,可供在后端集群互連上使用。動(dòng)態(tài)扇區(qū)修復(fù):DSR功能可用來隔離損壞的磁盤扇區(qū),重新向完好的數(shù)據(jù)以便在其他位置重新寫入。Mediascan:MediaScan在OneFS中的作用是檢查磁盤扇區(qū)并部署DSR機(jī)制,以便強(qiáng)制磁盤驅(qū)動(dòng)器修復(fù)他們可能遇到的任何扇區(qū)ECC錯(cuò)誤。總之,在HDFS存儲(chǔ)層使用EMC Isilon存儲(chǔ),可以避免多種傳統(tǒng)Hadoop存儲(chǔ)實(shí)施的許多缺點(diǎn),如下所示: