大數(shù)據(jù)時(shí)代海量視頻數(shù)據(jù)的存儲(chǔ)和管理

責(zé)任編輯:yoonjaeys

2014-06-03 08:22:38

摘自:中關(guān)村在線

維基百科全書的定義:“大數(shù)據(jù)是飛速增長(zhǎng)的,用現(xiàn)有數(shù)據(jù)庫(kù)管理工具難以管理的數(shù)據(jù)集合”。這些數(shù)據(jù)包括:社交媒體、移動(dòng)設(shè)備、科學(xué)計(jì)算和城市中部署的各類傳感器等等,其中視頻又是構(gòu)成數(shù)據(jù)體量最大的一部分。   

第1頁(yè):海量視頻數(shù)據(jù)的存儲(chǔ)和管理   

維基百科全書的定義:“大數(shù)據(jù)是飛速增長(zhǎng)的,用現(xiàn)有數(shù)據(jù)庫(kù)管理工具難以管理的數(shù)據(jù)集合”。這些數(shù)據(jù)包括:社交媒體、移動(dòng)設(shè)備、科學(xué)計(jì)算和城市中部署的各類傳感器等等,其中視頻又是構(gòu)成數(shù)據(jù)體量最大的一部分。   

據(jù)IMS Research統(tǒng)計(jì),2011年全球攝像頭的出貨量達(dá)到2646萬(wàn)臺(tái),預(yù)計(jì)到2015年攝像頭出貨量達(dá)5454萬(wàn)臺(tái)。僅僅視頻監(jiān)控錄像而言,每天的數(shù)據(jù)量就達(dá)上千PB,累計(jì)的歷史數(shù)據(jù)將更為龐大,在視頻監(jiān)控大聯(lián)網(wǎng)、高清化推動(dòng)下,視頻監(jiān)控業(yè)務(wù)步入數(shù)據(jù)的井噴時(shí)代。   

“大數(shù)據(jù)或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。”維基百科對(duì)大數(shù)據(jù)的定義將大數(shù)據(jù)的特點(diǎn)闡釋得非常清晰: “海量”和“非結(jié)構(gòu)化”。   

海量   

IDC研究表明,2012年的數(shù)據(jù)存儲(chǔ)總量約為2.8ZB,2020年數(shù)據(jù)存儲(chǔ)量約為40ZB(1ZB=1億TB)。數(shù)據(jù)量正在以 55% 的速度逐年增長(zhǎng)。全世界粗略估計(jì)有至少有2億個(gè)攝像頭在角落里靜靜的看著我們。   

非結(jié)構(gòu)化   

與通常講的Oracle、SQL這類傳統(tǒng)的數(shù)據(jù)中心級(jí)的結(jié)構(gòu)化數(shù)據(jù)不同,視頻監(jiān)控業(yè)務(wù)產(chǎn)生的數(shù)據(jù)絕大多數(shù)以非結(jié)構(gòu)化的數(shù)據(jù)為主,信息呈現(xiàn)上為松耦合的關(guān)系,這給傳統(tǒng)的數(shù)據(jù)管理和使用機(jī)制帶來(lái)了極大的挑戰(zhàn)。   

大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于如何讓數(shù)據(jù)會(huì)“說(shuō)話”。如何將海量的數(shù)據(jù)變成落地民生,進(jìn)行商業(yè)趨勢(shì)、判定研究質(zhì)量、避免疾病擴(kuò)散、打擊犯罪或測(cè)定實(shí)時(shí)交通路況正是“大數(shù)據(jù)”盛行的本質(zhì)。   

圍繞大數(shù)據(jù)的命題,經(jīng)過(guò)采集后的視頻數(shù)據(jù)通過(guò)創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù),進(jìn)行數(shù)據(jù)的分析和挖掘,最終進(jìn)行可視化的呈現(xiàn),就是大數(shù)據(jù)的衍變過(guò)程。在大數(shù)據(jù)的發(fā)展趨勢(shì)下,對(duì)海量視頻監(jiān)控?cái)?shù)據(jù)的存儲(chǔ)和管理是當(dāng)下各大廠商積極探索的命題之一。   

海量視頻數(shù)據(jù)的存儲(chǔ)和管理   

視頻數(shù)據(jù)的爆炸式增長(zhǎng),意味著需要投入更多的資源以及付出更多的努力,才能在這些體量龐大的數(shù)據(jù)中尋找到有價(jià)值的信息。目前各大廠商也發(fā)現(xiàn)單個(gè)節(jié)點(diǎn)的存儲(chǔ)設(shè)備無(wú)法適應(yīng)海量的視頻監(jiān)控?cái)?shù)據(jù)的管理需求,其發(fā)展沒(méi)能跟上數(shù)據(jù)增長(zhǎng)的速度。其實(shí)不難發(fā)現(xiàn),視頻監(jiān)控?cái)?shù)據(jù)和傳統(tǒng)的數(shù)據(jù)中心的結(jié)構(gòu)化數(shù)據(jù)的業(yè)務(wù)模型相差較大:   恒定碼流的高并發(fā)寫入   

視頻監(jiān)控?cái)?shù)據(jù)具有高并發(fā)、大容量的特點(diǎn)。以1080P為例,在4Mbps的碼率下,中等城市的監(jiān)控規(guī)模一般為數(shù)千到數(shù)萬(wàn)個(gè)攝像頭,按5000路計(jì)算,并發(fā)寫入碼流為5000路*4Mbps *24小時(shí)*60分鐘*60秒 ;   

大容量   

根據(jù)公安部要求錄像數(shù)據(jù)在系統(tǒng)中保存30天以上。中等城市的存儲(chǔ)容量為:5000路*4Mbps *24小時(shí)*60分鐘*60秒*30天;   

高可靠   

視頻監(jiān)控存儲(chǔ)系統(tǒng)7*24小時(shí)不間斷的高壓力寫入的同時(shí),還必須具有高級(jí)別的容錯(cuò)性,存儲(chǔ)等硬盤類介質(zhì)屬于電子產(chǎn)品,電子產(chǎn)品或多或少都存在軟件或硬件的bug,高壓力下的硬盤故障率也會(huì)比較高,如果保障故障發(fā)生時(shí)不造成監(jiān)控?cái)?shù)據(jù)的丟失,是視頻監(jiān)控存儲(chǔ)管理的重要命題。   

在線升級(jí)擴(kuò)容   

由于視頻監(jiān)控項(xiàng)目本身在不斷發(fā)展,系統(tǒng)定期會(huì)進(jìn)行在線擴(kuò)容和升級(jí),這就要求存儲(chǔ)系統(tǒng)具有高度的可擴(kuò)展性,可在系統(tǒng)中簡(jiǎn)單便捷地增添存儲(chǔ)設(shè)備。   

信息價(jià)值   

海量數(shù)據(jù)和有效數(shù)據(jù)之間的矛盾。攝像頭7*24小時(shí)工作,如實(shí)記錄鏡頭覆蓋范圍的發(fā)生的一切,僅僅記錄信息是不夠的,因?yàn)閷?duì)于客戶來(lái)講可能大部分信息是無(wú)效,有效信息可能只分布在一個(gè)較短的時(shí)間段內(nèi),按照數(shù)學(xué)統(tǒng)計(jì)的說(shuō)法,信息是呈現(xiàn)冪律分布的,也稱之為信息的密度,通常在最短的時(shí)間內(nèi)提供的數(shù)據(jù)有效性越高,對(duì)客戶價(jià)值越大。   

有效信息提取(計(jì)算)   

在視頻監(jiān)控領(lǐng)域,往往視頻分析的效率決定價(jià)值,更低的延遲、更準(zhǔn)確的分析往往是平安城市這類客戶的普遍需求。隨著數(shù)據(jù)量的增加,哪怕對(duì)TB級(jí)別的數(shù)據(jù)進(jìn)行對(duì)視頻內(nèi)容的數(shù)據(jù)分析和檢索,采用串行計(jì)算的模式都可能需要花費(fèi)數(shù)小時(shí)的計(jì)算,已遠(yuǎn)遠(yuǎn)不能勝任時(shí)效性的需求。大數(shù)據(jù)架構(gòu)下的存儲(chǔ)系統(tǒng)還需要考慮后續(xù)的計(jì)算模式的匹配。   

第2頁(yè):視頻文件存儲(chǔ)幾大問(wèn)題   

視頻文件目前絕大多數(shù)的系統(tǒng)都是采用文件系統(tǒng)的方式進(jìn)行音視頻數(shù)據(jù)的存儲(chǔ)。文件系統(tǒng)有幾個(gè)最大的問(wèn)題:   

存儲(chǔ)設(shè)備管理接口不統(tǒng)一   

存儲(chǔ)資源的管理及分配制度   

以文件系統(tǒng)為核心的數(shù)據(jù)存儲(chǔ)方式   

1) 文件系統(tǒng)易損壞,寫文件會(huì)導(dǎo)致文件系統(tǒng)元數(shù)據(jù)區(qū)的頻繁持續(xù)更新,因此文件系統(tǒng)的元數(shù)據(jù)區(qū)很容易損壞,導(dǎo)致文件系統(tǒng)不可用。   

2) 性能問(wèn)題:文件系統(tǒng)經(jīng)IO過(guò)操作系統(tǒng)的封裝,在數(shù)據(jù)長(zhǎng)時(shí)期持續(xù)寫入的情況下,開銷要大于直接裸盤寫入,降低性能。在磁盤上存在大量錄像文件時(shí),系統(tǒng)的錄像檢索效率會(huì)下降很多。另外,磁盤上的大量文件在多次刪除重建后,數(shù)據(jù)在物理磁盤上的位置將變成不連續(xù),導(dǎo)致數(shù)據(jù)寫入的隨機(jī)性加大,從而降低錄像數(shù)據(jù)的寫入性能。

視頻存儲(chǔ)作為圖像數(shù)據(jù)和報(bào)警事件記錄的基礎(chǔ)載體,重要性是不言而喻的,存儲(chǔ)的需求已不僅是一臺(tái)或幾臺(tái)設(shè)備而已,而已提升到了一個(gè)解決方案平臺(tái)的高度。大容量、高并發(fā)的視頻監(jiān)控存儲(chǔ)系統(tǒng)并不是存儲(chǔ)設(shè)備的簡(jiǎn)單堆積,更需要解決監(jiān)控業(yè)務(wù)特色的存儲(chǔ)機(jī)制的完備性、存儲(chǔ)標(biāo)準(zhǔn)以及在時(shí)間(存儲(chǔ)數(shù)據(jù)處理速度)和空間(存儲(chǔ)容量)上的可使用性等問(wèn)題上滿足大容量、高并發(fā)等大數(shù)據(jù)應(yīng)用架構(gòu)下的監(jiān)控存儲(chǔ)系統(tǒng)的要求。

“云存儲(chǔ)”有許多的定義,大家公認(rèn)的基本功能有:按需自動(dòng)服務(wù)、資源池、快速靈活、廣泛的網(wǎng)絡(luò)接入等。云存儲(chǔ)是通過(guò)網(wǎng)絡(luò)提供的可配置虛擬化存儲(chǔ)和相關(guān)數(shù)據(jù)服務(wù),這個(gè)服務(wù)級(jí)別是可以按需要來(lái)保證的。云存儲(chǔ)的第一個(gè)涵義是網(wǎng)絡(luò),早期通過(guò)云的圖示表示網(wǎng)絡(luò),這是云存儲(chǔ)的由來(lái)。“云存儲(chǔ)”實(shí)際上借助了網(wǎng)絡(luò)的概念,所以涵括了部分網(wǎng)絡(luò)在內(nèi);另一個(gè)含義就是它的服務(wù),虛擬化存儲(chǔ),提供存儲(chǔ)池,屏蔽單臺(tái)存儲(chǔ)設(shè)備的所有細(xì)節(jié),提供傳統(tǒng)的存儲(chǔ)很難做到按需服務(wù)。   

基于裸數(shù)據(jù)塊的視頻云直存虛擬化技術(shù)   

虛擬化是云存儲(chǔ)的主要特征之一。存儲(chǔ)領(lǐng)域國(guó)際權(quán)威機(jī)構(gòu)SNIA(存儲(chǔ)網(wǎng)絡(luò)工業(yè)協(xié)會(huì))給出了存儲(chǔ)虛擬化(Storage Virtualization)的定義:“通過(guò)將存儲(chǔ)系統(tǒng)/子系統(tǒng)的內(nèi)部功能從應(yīng)用程序、計(jì)算服務(wù)器、網(wǎng)絡(luò)資源中進(jìn)行抽象、隱藏或隔離,實(shí)現(xiàn)獨(dú)立于應(yīng)用程序、網(wǎng)絡(luò)的存儲(chǔ)與數(shù)據(jù)管理”。存儲(chǔ)虛擬化技術(shù)將底層存儲(chǔ)設(shè)備進(jìn)行抽象化統(tǒng)一管理,向服務(wù)器層屏蔽存儲(chǔ)設(shè)備硬件的特殊性,而只保留其統(tǒng)一的邏輯特性,從而實(shí)現(xiàn)了存儲(chǔ)系統(tǒng)的集中、統(tǒng)一、方便的管理。   

與傳統(tǒng)虛擬化存儲(chǔ)相比,基于“裸數(shù)據(jù)塊”的虛擬化存儲(chǔ)化技術(shù),不僅繼承了“磁盤利用率高” 和“管理方便”的特點(diǎn),還能將文件系統(tǒng)的風(fēng)險(xiǎn)及碎片問(wèn)題徹底解決。

高磁盤利用率   

傳統(tǒng)存儲(chǔ)技術(shù)的磁盤利用率一般只有30-70%,而采用虛擬化技術(shù)后的磁盤利用率高達(dá)95%;存儲(chǔ)靈活,可以適應(yīng)不同廠商、不同類別的異構(gòu)存儲(chǔ)平臺(tái),為存儲(chǔ)資源管理提供了更好的靈活性;   

管理方便   

管理方便,提供了一個(gè)大容量存儲(chǔ)系統(tǒng)集中管理的手段,避免了由于存儲(chǔ)設(shè)備擴(kuò)充所帶來(lái)的管理方面的麻煩;性能更好,虛擬化存儲(chǔ)系統(tǒng)可以很好地進(jìn)行負(fù)載均衡,把每一次數(shù)據(jù)訪問(wèn)所需的帶寬合理地分配到各個(gè)存儲(chǔ)模塊上,提高了系統(tǒng)的整體訪問(wèn)帶寬。   

第3頁(yè):無(wú)文件碎片及文件系統(tǒng)問(wèn)題   

無(wú)文件碎片及文件系統(tǒng)問(wèn)題   

云存儲(chǔ)是炙手可熱的“大數(shù)據(jù)”中組成之一:存儲(chǔ)單元模塊。“大數(shù)據(jù)”中提及富媒體資源指的就是視頻監(jiān)控業(yè)務(wù)產(chǎn)生的大量數(shù)據(jù),占比巨大的富媒體信息中的載體為存儲(chǔ)設(shè)備和云存儲(chǔ)解決方案。   

存儲(chǔ)設(shè)備或云存儲(chǔ)解決方案作為視頻監(jiān)控里中結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的載體,橫跨基礎(chǔ)架構(gòu)、內(nèi)容信息三個(gè)維度的信息化建設(shè)的基礎(chǔ)。如果將“富”媒體中的視頻信息,從底層的動(dòng)態(tài)存儲(chǔ)到以事件或物理為索引的信息分析,再到將海量的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成信息和洞察力,做到真正的“為人所用”,才是大數(shù)據(jù)的真正魅力所在。   

監(jiān)控特色的數(shù)據(jù)倉(cāng)庫(kù)   

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。 數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)過(guò)程而不是一個(gè)項(xiàng)目;數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)環(huán)境,而不是一件產(chǎn)品。數(shù)據(jù)倉(cāng)庫(kù)提供用戶用于決策支持的當(dāng)前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的操作型數(shù)據(jù)庫(kù)中很難或不能得到。   

監(jiān)控特色的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是為了有效的把基礎(chǔ)視頻庫(kù)中的錄像信息,按照某些特性或邏輯或定義的結(jié)構(gòu)類型,進(jìn)行信息的提取,作為數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策型數(shù)據(jù)訪問(wèn)的基礎(chǔ)。目的做的一切都是為了讓用戶更快更方便查詢所需要的信息,提供決策支持   

傳統(tǒng)的數(shù)據(jù)處理和加工是:從外界存儲(chǔ)取出來(lái)數(shù)據(jù),被應(yīng)用程序或其他系統(tǒng)程序所讀取并計(jì)算處理,處理完畢將其放入程序里面,整個(gè)業(yè)務(wù)流有多個(gè)處理環(huán)節(jié),要不斷地存儲(chǔ)、讀取、計(jì)算、再存儲(chǔ),其系統(tǒng)的大量時(shí)間花費(fèi)在數(shù)據(jù)的遷移上,一旦數(shù)據(jù)量增加,從數(shù)據(jù)向計(jì)算遷移的環(huán)節(jié)就肯定“費(fèi)時(shí)費(fèi)力”。   

大數(shù)據(jù)整理架構(gòu)發(fā)展趨勢(shì)下,將管理的重點(diǎn)由以前的“設(shè)備”為中心,衍變成以“數(shù)據(jù)”為核心的模式。用戶根據(jù)數(shù)據(jù)具體分布,推送部署計(jì)算單元,大大節(jié)省額外的空間計(jì)算消耗。   

數(shù)據(jù)可視化   

無(wú)論是單一的存儲(chǔ)設(shè)備,還是IT或監(jiān)控云存儲(chǔ)的解決方案,其核心都是作為數(shù)據(jù)的載體。任何行為本身都會(huì)產(chǎn)生數(shù)據(jù),視頻監(jiān)控業(yè)務(wù)中每個(gè)物體的軌跡、每秒中呈現(xiàn)的數(shù)據(jù),都是就是大數(shù)據(jù)的最原始雛形,但雛形不等于本質(zhì),擁有這些軌跡數(shù)據(jù)的本質(zhì),才能更全面、更清楚的對(duì)原始數(shù)據(jù)的認(rèn)知。   

數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫(kù)中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入的觀察和分析。主要旨在借助于圖形化手段,清晰有效地傳達(dá)與溝通信息。但是,這并不就意味著,數(shù)據(jù)可視化目的為了有效地傳達(dá)“數(shù)據(jù)”的過(guò)去狀態(tài)的呈現(xiàn)及未來(lái)狀態(tài)的預(yù)測(cè),通過(guò)直觀的數(shù)據(jù)傳達(dá)關(guān)鍵的方面與特征,從而實(shí)現(xiàn)對(duì)于相當(dāng)稀疏而又復(fù)雜的數(shù)據(jù)集的深入洞察。   

監(jiān)控視頻數(shù)據(jù)可視化依據(jù)數(shù)據(jù)及其內(nèi)在模式和關(guān)系,利用計(jì)算機(jī)生成的圖像來(lái)獲得深入認(rèn)識(shí)和知識(shí)。模擬感覺(jué)系統(tǒng)的廣闊帶寬來(lái)操縱和解釋錯(cuò)綜復(fù)雜的過(guò)程、涉及不同學(xué)科領(lǐng)域的數(shù)據(jù)集以及來(lái)源多樣的大型抽象數(shù)據(jù)集合的模擬。   

監(jiān)控視頻數(shù)據(jù)可視化是大數(shù)據(jù)架構(gòu)下的特征產(chǎn)物之一,通過(guò)視頻云存儲(chǔ)作為承載。“可視化”的實(shí)現(xiàn)能打破成熟的科學(xué)可視化領(lǐng)域與較年輕的信息可視化領(lǐng)域間的技術(shù)壁壘,同時(shí)也是一條鋪滿荊棘的探索之路。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)