自20世紀(jì)的CD、磁盤以及磁帶,直至現(xiàn)在備受歡迎的固態(tài)硬盤和云存儲,存儲的載體在不斷的變化和發(fā)展。時下,數(shù)據(jù)量在以“野草”一般的速度生長,視頻、音頻、微博等非結(jié)構(gòu)化數(shù)據(jù)占據(jù)的比例越來越大,存儲不斷面臨新的挑戰(zhàn)。大數(shù)據(jù)時代的來臨,IT基礎(chǔ)架構(gòu)受到前所未有的挑戰(zhàn),存儲更是沖當(dāng)其沖。大數(shù)據(jù)和存儲之間有什么樣的聯(lián)系?對存儲帶來了哪些挑戰(zhàn)?帶著這些問題,記者采訪了ESG中國區(qū)總經(jīng)理王叢。
大數(shù)據(jù)的不同問題需不同的存儲系統(tǒng)應(yīng)對自20世紀(jì)的CD、磁盤以及磁帶,直至現(xiàn)在備受歡迎的固態(tài)硬盤和云存儲,存儲的載體在不斷的變化和發(fā)展。時下,數(shù)據(jù)量在以“野草”一般的速度生長,視頻、音頻、微博等非結(jié)構(gòu)化數(shù)據(jù)占據(jù)的比例越來越大,存儲不斷面臨新的挑戰(zhàn)。
王叢提到,其實大數(shù)據(jù)的問題不僅僅和存儲相關(guān),還和存儲之外的很多技術(shù)相關(guān)。目前而言,主要面臨三類典型的大數(shù)據(jù)問題,第一,OLTP(聯(lián)機(jī)事務(wù)處理系統(tǒng)) 里的數(shù)據(jù)表格子集太大,計算需要的時間長,處理能力低;第二,OLAP(聯(lián)機(jī)分析處理)系統(tǒng)里的處理分析數(shù)據(jù)的過程中,在子集之上抽取形式用列的去抽取數(shù)據(jù),時間太長,分析不出來,不能做比對分析;第三,典型的非結(jié)構(gòu)化數(shù)據(jù),每一個數(shù)據(jù)塊的都比較大,帶來了存儲容量、存儲帶寬、I/O瓶頸的一系列問題,象網(wǎng)游、廣電的數(shù)據(jù)存儲在自己的數(shù)據(jù)中心里,資源耗費(fèi)很大,交付周期太長,效率低下。
OLTP也被稱為實時系統(tǒng),最大的優(yōu)點就是可以即時地處理輸入的數(shù)據(jù),及時地回答。這在一定程度上對存儲系統(tǒng)的要求很高,需要一級主存儲,具備高性能、安全性高、良好的穩(wěn)定性和可擴(kuò)展性,對于資源能夠?qū)崿F(xiàn)彈性配置?,F(xiàn)在比較流行的是基于控制器的網(wǎng)格架構(gòu),網(wǎng)格概念使得架構(gòu)得以橫向擴(kuò)展(Scale out),解決了傳統(tǒng)存儲架構(gòu)的性能熱點和瓶頸問題,并使存儲可靠性,管理性,自動化調(diào)優(yōu)達(dá)到了一個新的水平。像IBM的XIV、EMC的VMAX、惠普的3PAR系列、戴爾的EqualLogic都是這一類產(chǎn)品的典型代表。
OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,也是商業(yè)智能(Business Intelligent)的靈魂。聯(lián)機(jī)分析處理的主要特點,可以是直接仿照用戶的多角度思考模式,預(yù)先為用戶組建多維的數(shù)據(jù)模型,展現(xiàn)在用戶面前的是一幅幅多維視圖,也可以對海量數(shù)據(jù)進(jìn)行比對和多維度分析,處理數(shù)據(jù)量非常大,很多是歷史型數(shù)據(jù),對跨平臺能力要求高。王叢提到,OLAP的發(fā)展趨勢從傳統(tǒng)的批量分析,到近線(近實時)分析,在向?qū)崟r分析發(fā)展。目前,解決BI挑戰(zhàn)策略主要分為兩類:(1)通過列結(jié)構(gòu)數(shù)據(jù)庫,解決表結(jié)構(gòu)數(shù)據(jù)庫帶來的OLAP性能問題,典型的產(chǎn)品如EMC的Greenplum,IBM 的Netezza;(2)通過開源,解決云計算和人機(jī)交互環(huán)境大數(shù)據(jù)分析問題,如VMware Ceta, Hadoop等。從存儲角度,OLAP通常處理結(jié)構(gòu)化,非結(jié)構(gòu)化,和半結(jié)構(gòu)化數(shù)據(jù)。這類分析適用于大容量,大吞吐量的存儲(如統(tǒng)一存儲)。此外,商業(yè)智能分析在歐美市場是“云計算”含金量最高的云服務(wù)形式之一。對歐美零售業(yè)來說,圣誕節(jié)前后8周銷售額可占一年銷售額的30%以上。如何通過云計算大數(shù)據(jù)分析,在無需長期持有IT資源前提下,從工資收入,采購習(xí)慣,家庭人員構(gòu)成等BI分析,判斷優(yōu)質(zhì)客戶可接受的價位,和服務(wù)水平,提高零售高峰期資金鏈,物流鏈周轉(zhuǎn)效率,最大化銷售額和利潤,就是一個最典型的大數(shù)據(jù)分析云服務(wù)例子。
作為富媒體應(yīng)用來說,數(shù)據(jù)壓力集中在生產(chǎn)和制造的兩頭,比如做網(wǎng)游,需要一個人做背景,一個人做配音、一個人做動作,渲染等等,最后需要一個人把它們?nèi)空掀饋?。在?shù)據(jù)處理過程中,一般情況下一個文件大家同時去讀取,對文件并行處理能力要求高。通常需要能支撐大塊文件在網(wǎng)上傳輸。針對這類的問題,集群NAS是存儲首選,在集群NAS中,最小的單位個體是文件,通過文件系統(tǒng)的調(diào)度算法,其可以將整個應(yīng)用隔離成較小且并行的獨立任務(wù),并將文件數(shù)據(jù)分配到各個集群節(jié)點上。集群NAS和Hadoop分布文件系統(tǒng)的結(jié)合,這種方式對于大型的應(yīng)用具有很高的實用價值。典型的例子時Isilon OS和Hadoop 分布文件系統(tǒng)集成,常被應(yīng)用于大型的數(shù)據(jù)庫查詢搜索、密集型的計算、生命科學(xué)、能源勘探以及動畫制作等領(lǐng)域。常見的集群NAS產(chǎn)品有EMC的 Isilon、HP的Ibrix系列、IBM的SoNAS、NetApp的OntapGX等。
存儲技術(shù)變得更加重要
非結(jié)構(gòu)數(shù)據(jù)的增長非常迅速,除了新增的數(shù)據(jù)量,還要考慮數(shù)據(jù)的保護(hù)。來來回回的備份,數(shù)據(jù)就增長了好幾倍,數(shù)據(jù)容量的增長給企業(yè)帶來了很大的壓力。如何提高存儲空間的使用效率和如何降低需要存儲的數(shù)據(jù)量也成為企業(yè)絞盡腦汁要考慮的問題。
王叢表示,應(yīng)對存儲容量有一些優(yōu)化的技術(shù),象重復(fù)數(shù)據(jù)刪除(適用于結(jié)構(gòu)化數(shù)據(jù))、自動精簡配置和分層存儲等技術(shù),都是提高存儲效率最重要、最有效的技術(shù)手段。如果沒有虛擬化、存儲利用率只有20-30%,通過使用這些技術(shù),利用率提高了80%,可利用容量增加一倍不止。結(jié)合重復(fù)刪除技術(shù),備份數(shù)據(jù)量和帶寬資源需求可以減少90%以上。
此外,云存儲的方式在歐美市場上的應(yīng)用很廣泛,大數(shù)據(jù)用云的形式去交付有兩個典型,面對好萊塢的電影制作商,這些資源是黃金數(shù)據(jù),如果不想放在自己數(shù)據(jù)中心里,把它們歸檔在云上,到時再進(jìn)行調(diào)用。此外,越來越多的企業(yè)將云存儲作為資源補(bǔ)充,提高持有IT資源利用率。
最后,王叢強(qiáng)調(diào)到,無論是大數(shù)據(jù)還是小數(shù)據(jù),企業(yè)最關(guān)心的是處理能力,如何更好的支撐IT應(yīng)用的性能。所以企業(yè)做大數(shù)據(jù)時,要把大數(shù)據(jù)問題進(jìn)行分類,究竟是哪一類的問題,和企業(yè)的應(yīng)用做一個銜接和劃分。企業(yè)不要被誤導(dǎo)了,就象云計算,價值很大,但在中國被誤導(dǎo)了,廠商也受害,用戶也受害。