大數(shù)據(jù)關(guān)鍵技術(shù)淺談之大數(shù)據(jù)存儲(chǔ)及管理

責(zé)任編輯:cres

2020-11-20 13:36:37

摘自:騰訊網(wǎng)

數(shù)據(jù)存儲(chǔ)作為大數(shù)據(jù)的核心環(huán)節(jié)之一,可以理解為方便對既定數(shù)據(jù)內(nèi)容進(jìn)行歸檔、整理和共享的過程。自磁盤系統(tǒng)問世以來,數(shù)據(jù)存儲(chǔ)已經(jīng)走過了近百年的歷程。

數(shù)據(jù)存儲(chǔ)作為大數(shù)據(jù)的核心環(huán)節(jié)之一,可以理解為方便對既定數(shù)據(jù)內(nèi)容進(jìn)行歸檔、整理和共享的過程。自磁盤系統(tǒng)問世以來,數(shù)據(jù)存儲(chǔ)已經(jīng)走過了近百年的歷程。
 
對于存儲(chǔ),計(jì)算機(jī)就像我們的大腦一樣,兩者都可以擁有短期記憶和長期記憶,例如大腦是通過前額葉皮層來處理短期記憶,而計(jì)算機(jī)則利用RAM(隨機(jī)存取存儲(chǔ)器)來處理短期記憶。大腦和計(jì)算機(jī)都需要在清醒的狀態(tài)下處理并記住事務(wù),并在工作一段時(shí)間后會(huì)感到疲倦。
 
大腦在睡眠時(shí)會(huì)將工作記憶轉(zhuǎn)換為長期記憶,而計(jì)算機(jī)則在睡眠時(shí)將活動(dòng)記憶轉(zhuǎn)換為存儲(chǔ)卷。計(jì)算機(jī)還會(huì)按類型來分配數(shù)據(jù),就像大腦按語義、空間、情感或規(guī)程來分配記憶一樣。
 
而在大數(shù)據(jù)時(shí)代,由于從多渠道獲得的數(shù)據(jù)通常缺乏一致性,數(shù)據(jù)結(jié)構(gòu)混雜,且數(shù)據(jù)不斷增長,更何況任何機(jī)器都會(huì)有物理上的限制:內(nèi)存容量、硬盤容量、處理器速度等。
 
這就導(dǎo)致對于單機(jī)系統(tǒng)來說,即使及時(shí)不斷提升硬件配置也很難跟上數(shù)據(jù)增長的速度,我們需要在硬件限制和性能之間做取舍。
 
因此對于那些希望從比存儲(chǔ)和使用成本更高的數(shù)據(jù)中獲得價(jià)值的企業(yè)和組織來講,有效的數(shù)據(jù)存儲(chǔ)和管理變得比以往任何時(shí)候都更加重要。
 
——
 
大數(shù)據(jù)存儲(chǔ)與管理的技術(shù)對整個(gè)大數(shù)據(jù)系統(tǒng)都至關(guān)重要,數(shù)據(jù)存儲(chǔ)與管理的好壞直接影響了整個(gè)大數(shù)據(jù)系統(tǒng)的性能表現(xiàn)。
 
數(shù)據(jù)存儲(chǔ)和管理如今并不止被定義為接收、存儲(chǔ)、組織和維護(hù)組織創(chuàng)建的數(shù)據(jù),更多時(shí)候它還意味著更多內(nèi)容,包括但不限于:
 
對數(shù)據(jù)進(jìn)行分類;
 
聚合、收集和解析數(shù)據(jù)的元數(shù)據(jù);
 
保護(hù)數(shù)據(jù)和元數(shù)據(jù)不受自然和人為中斷的影響;
 
在內(nèi)部部署和地理上移動(dòng)數(shù)據(jù),以進(jìn)行共享、歸檔、復(fù)制、數(shù)據(jù)保護(hù)、存儲(chǔ)系統(tǒng)技術(shù)更新和遷移,并訪問所需的分析引擎,從而對該數(shù)據(jù)進(jìn)行更深入的研究;
 
在進(jìn)行一次或多次移動(dòng)后,保持用戶和應(yīng)用程序?qū)?shù)據(jù)的透明訪問;
 
提供用戶可定義的策略,這些策略可自動(dòng)移動(dòng)、復(fù)制和刪除數(shù)據(jù);
 
部署人工智能和機(jī)器學(xué)習(xí)以優(yōu)化和自動(dòng)化大多數(shù)數(shù)據(jù)管理功能;
 
搜索數(shù)據(jù)并提供可行的信息和見解;
 
使數(shù)據(jù)符合個(gè)人識(shí)別信息法律和法規(guī);
 
將數(shù)據(jù)管理擴(kuò)展到數(shù)百PB甚至EB的快速擴(kuò)展數(shù)據(jù)。
 
——
 
根據(jù)數(shù)據(jù)存儲(chǔ)和管理的內(nèi)容范圍,我們可以大致理解大數(shù)據(jù)存儲(chǔ)及管理技術(shù)需要重點(diǎn)研究如何解決大數(shù)據(jù)的可存儲(chǔ)、可表示、可處理、可靠性及有效傳輸?shù)葞讉€(gè)關(guān)鍵問題。
 
具體來講需要解決的往往是以下幾類問題:海量文件的存儲(chǔ)與管理,海量小文件的傳輸、索引和管理,海量大文件的分塊與存儲(chǔ),系統(tǒng)可擴(kuò)展性與可靠性。
 
伴隨著重點(diǎn)研究問題,在大數(shù)據(jù)存儲(chǔ)和管理發(fā)展過程中,出現(xiàn)了幾種較為有效的存儲(chǔ)和管理大數(shù)據(jù)的方式:
 
1.不斷加密
 
對于任何一個(gè)企業(yè)來說,任何類型的數(shù)據(jù)都可能是至關(guān)重要且私有的,只有能在自己掌控的范圍內(nèi)才可以說是安全的。然而,很多行業(yè)巨頭容易成為黑客攻擊的首要目標(biāo),許多公司會(huì)對此有危機(jī)感。
 
隨著企業(yè)為保護(hù)資產(chǎn)而全面開展對于黑客的反擊,加密技術(shù)成為了打擊網(wǎng)絡(luò)威脅的可行途徑:
 
通過將所有內(nèi)容轉(zhuǎn)換為代碼,使用加密信息,只有收件人可以解碼。如果沒有其他的要求,則加密保護(hù)數(shù)據(jù)傳輸,增強(qiáng)在數(shù)字傳輸中有效地到達(dá)正確人群的機(jī)會(huì)。
 
2. 倉庫存儲(chǔ)
 
有人說,大數(shù)據(jù)似乎就像一個(gè)永無休止的數(shù)據(jù)漩渦,極其難被管理。
 
因此,可以考慮將信息精簡后統(tǒng)一集中到一個(gè)指定位置——數(shù)據(jù)倉庫。
 
通過對數(shù)據(jù)的存儲(chǔ)、校準(zhǔn)、整合及輸出,對數(shù)據(jù)進(jìn)行集中分層次管理,在保證數(shù)據(jù)時(shí)效性、生態(tài)性的同時(shí),還能夠?qū)?shù)據(jù)完成不同程度的處理。
 
3. 備份服務(wù) - 云端
 
設(shè)想一下,假如數(shù)據(jù)存儲(chǔ)技術(shù)在物理層面就停滯不前,而大數(shù)據(jù)卻依舊以現(xiàn)在的速度持續(xù)增長,遲早有一天我們會(huì)面臨數(shù)據(jù)無處存儲(chǔ)的窘境,所幸大數(shù)據(jù)存儲(chǔ)和管理正在迅速脫離物理機(jī)器的范疇,并迅速進(jìn)入數(shù)字領(lǐng)域。
 
由于云存儲(chǔ)服務(wù)推動(dòng)了數(shù)字化轉(zhuǎn)型,使得云計(jì)算的應(yīng)用越來越繁榮。數(shù)據(jù)可以隨時(shí)隨地進(jìn)行訪問,并在云存儲(chǔ)服務(wù)上進(jìn)行備份,這也意味著如果出現(xiàn)網(wǎng)絡(luò)攻擊,云端將數(shù)據(jù)從A遷移到B甚至到C的方式來確保數(shù)據(jù)安全。
 
數(shù)字經(jīng)濟(jì)時(shí)代,大數(shù)據(jù)管理不僅僅是數(shù)據(jù)存儲(chǔ)架構(gòu)的變革,更是大數(shù)據(jù)思維方式的轉(zhuǎn)變升級。用好數(shù)據(jù)是企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)