對(duì)PB級(jí)非結(jié)構(gòu)化數(shù)據(jù)的要求

責(zé)任編輯:cres

作者:George Crump

2019-10-18 10:32:38

來(lái)源:企業(yè)網(wǎng)D1Net

原創(chuàng)

眾所周知,非結(jié)構(gòu)化數(shù)據(jù)很難管理。但是,當(dāng)組織的非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)超過(guò)PB閾值時(shí),控制數(shù)據(jù)集將帶來(lái)一系列全新的挑戰(zhàn)。

眾所周知,非結(jié)構(gòu)化數(shù)據(jù)很難管理。但是,當(dāng)組織的非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)超過(guò)PB閾值時(shí),控制數(shù)據(jù)集將帶來(lái)一系列全新的挑戰(zhàn)。
 
大多數(shù)傳統(tǒng)的網(wǎng)絡(luò)附加存儲(chǔ)(NAS)系統(tǒng)都難以管理100 TB的非結(jié)構(gòu)化數(shù)據(jù)集,而管理多PB數(shù)據(jù)超出了他們的能力范圍。當(dāng)前網(wǎng)絡(luò)附加存儲(chǔ)(NAS)系統(tǒng)的局限性導(dǎo)致許多IT專業(yè)人員認(rèn)為唯一的答案將是對(duì)象存儲(chǔ)系統(tǒng)。問(wèn)題在于,盡管對(duì)象存儲(chǔ)可以擴(kuò)展以滿足容量需求,但在性能方面可能不足。
 
IT專業(yè)人員在試圖找到支持PB級(jí)非結(jié)構(gòu)化數(shù)據(jù)集的存儲(chǔ)基礎(chǔ)設(shè)施時(shí)面臨的挑戰(zhàn)之一是,必須將需求作為一個(gè)整體來(lái)考慮,因?yàn)樗性囟夹枰獏f(xié)同工作。
 
采用全閃存存儲(chǔ)不切實(shí)際
 
不可否認(rèn)的是,在過(guò)去的五到六年中,閃存的成本已大幅下降,但是機(jī)械硬盤存儲(chǔ)成本仍然很低。同時(shí),對(duì)非結(jié)構(gòu)化數(shù)據(jù)的性能要求僅在過(guò)去幾年中有所提高?,F(xiàn)代的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)需要非??焖俚靥幚碓獢?shù)據(jù)和實(shí)際數(shù)據(jù)。盡管一些全閃存供應(yīng)商聲稱對(duì)性能的需求勝于對(duì)容量的需求,但在PB級(jí)的環(huán)境中,采用PB級(jí)或更多的閃存介質(zhì)是不切實(shí)際的。
 
現(xiàn)代的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)需要智能地使用閃存和機(jī)械硬盤進(jìn)行存儲(chǔ),并根據(jù)需要在兩個(gè)存儲(chǔ)層之間自動(dòng)移動(dòng)數(shù)據(jù)。這些系統(tǒng)可以從較低的閃存成本中受益,以增加閃存容量并減少緩存丟失的影響。但他們也需要利用機(jī)械硬盤存儲(chǔ)來(lái)控制成本?,F(xiàn)代的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)還需要利用云存儲(chǔ)來(lái)實(shí)現(xiàn)長(zhǎng)期存檔和工作負(fù)載的可遷移性。
 
元數(shù)據(jù)必須擴(kuò)展
 
另一個(gè)要求是,元數(shù)據(jù)必須擴(kuò)展以跟上非結(jié)構(gòu)化數(shù)據(jù)集的增長(zhǎng)。管理元數(shù)據(jù)尤其重要,因?yàn)樵S多非結(jié)構(gòu)化數(shù)據(jù)工作負(fù)載現(xiàn)在正在處理數(shù)百萬(wàn)甚至數(shù)十億個(gè)文件。當(dāng)然,每個(gè)文件都生成元數(shù)據(jù)。大多數(shù)文件系統(tǒng)供應(yīng)商報(bào)告說(shuō),所有輸入輸出(IO)中多達(dá)80%是元數(shù)據(jù)。在許多情況下,由于元數(shù)據(jù)瓶頸、原有的網(wǎng)絡(luò)附加存儲(chǔ)(NAS)和文件系統(tǒng)達(dá)到了擴(kuò)展限制。即使從技術(shù)上講,當(dāng)前的系統(tǒng)可以提供更多的容量,但客戶仍然不得不購(gòu)買另一個(gè)存儲(chǔ)系統(tǒng)。
 
文件系統(tǒng)還應(yīng)該利用閃存來(lái)應(yīng)對(duì)PB級(jí)非結(jié)構(gòu)化數(shù)據(jù)集造成的元數(shù)據(jù)挑戰(zhàn)。寫(xiě)入或修改數(shù)據(jù)時(shí),文件系統(tǒng)應(yīng)提取有關(guān)文件的元數(shù)據(jù),并將其存儲(chǔ)在閃存的單獨(dú)區(qū)域中。將元數(shù)據(jù)存儲(chǔ)在閃存中不僅可以快速訪問(wèn)元數(shù)據(jù)請(qǐng)求(同樣,所有IO中的80%是元數(shù)據(jù)),還可以隔離這個(gè)IO,從而使實(shí)際數(shù)據(jù)的路徑不再那么繁忙。
 
容量必須擴(kuò)展
 
為了應(yīng)對(duì)PB級(jí)元數(shù)據(jù)挑戰(zhàn),使網(wǎng)絡(luò)附加存儲(chǔ)(NAS)或文件系統(tǒng)能夠提供比上一代存儲(chǔ)解決方案更大的容量,這意味著文件系統(tǒng)需要擴(kuò)展。它通過(guò)集群稱為節(jié)點(diǎn)的商品服務(wù)器來(lái)完成擴(kuò)展。每個(gè)節(jié)點(diǎn)都具有閃存和硬盤的內(nèi)部存儲(chǔ)容量,并將該存儲(chǔ)分配到全局存儲(chǔ)池中。當(dāng)組織需要更多容量時(shí),IT部門會(huì)添加另一個(gè)節(jié)點(diǎn),以向全局池存儲(chǔ)提供其容量。
 
洞察力就是力量
 
另一個(gè)必備條件是數(shù)據(jù)洞察力。給定文件數(shù)量及其消耗的容量,IT團(tuán)隊(duì)需要盡可能多地了解數(shù)據(jù)集。問(wèn)題在于大多數(shù)文件系統(tǒng)在添加事實(shí)之后會(huì)添加自己的見(jiàn)解,因此它們必須逐個(gè)文件人工掃描其文件系統(tǒng)以訪問(wèn)這些見(jiàn)解。這些掃描要花費(fèi)大量時(shí)間,尤其是在文件系統(tǒng)中,文件系統(tǒng)的數(shù)量高達(dá)數(shù)百萬(wàn)個(gè)(有時(shí)甚至數(shù)十億個(gè))。
 
IT部門需要實(shí)時(shí)可行的數(shù)據(jù)來(lái)監(jiān)視系統(tǒng)性能和容量利用率。這些團(tuán)隊(duì)需要立即識(shí)別出一個(gè)失控的過(guò)程是否正在消耗所有文件系統(tǒng)的可用IO。實(shí)時(shí)分析要求從一開(kāi)始就將這種功能構(gòu)建到文件系統(tǒng)中,而不是在以后添加它。如果文件系統(tǒng)將元數(shù)據(jù)從實(shí)際數(shù)據(jù)中分離出來(lái),并將其存儲(chǔ)在閃存介質(zhì)中,則文件系統(tǒng)的分析功能可以立即獲取該數(shù)據(jù),并為組織提供實(shí)時(shí)答案。
 
PB級(jí)的非結(jié)構(gòu)化數(shù)據(jù)環(huán)境與以TB為單位的環(huán)境有所不同。與傳統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)工作負(fù)載相比,其用例傾向于創(chuàng)建和需要訪問(wèn)更多的文件。存儲(chǔ)容量經(jīng)常超過(guò)1PB,許多組織的存儲(chǔ)容量都在幾十PB的范圍內(nèi)。考慮到人工智能和機(jī)器學(xué)習(xí)的興起,以及數(shù)字媒體的新需求,對(duì)文件系統(tǒng)的需求將會(huì)增加。
 
現(xiàn)代的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)解決方案需要全面應(yīng)對(duì)這些挑戰(zhàn)。由于多種原因,很多組織需要采用閃存,而又不能放棄機(jī)械硬盤節(jié)省成本的潛力。同時(shí),這些系統(tǒng)需要提供對(duì)數(shù)據(jù)的洞察力,以便IT部門可以有效地對(duì)其進(jìn)行管理。
 
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)