大數(shù)據(jù)時代最熱的三個關(guān)鍵詞為:云、大數(shù)據(jù)、分析。云計算之熱在此不必贅述,因為不管你看微博也好,瀏覽網(wǎng)站也好,如果三頁看不到一個云字的話,那說明你一定不在IT業(yè)。
何為大數(shù)據(jù)?何以據(jù)?
我們先一起看看大數(shù)據(jù)這個詞發(fā)展的歷史。
60年代的時候,人們提起數(shù)據(jù)這個詞的時候,都只提Data。70年代創(chuàng)建了一個詞叫Database,從數(shù)據(jù)變成了數(shù)據(jù)庫,庫這個詞就顯得很大了。1975年創(chuàng)建了一個詞叫VLDB,80年代又創(chuàng)建了一個詞叫Data Warehouse,數(shù)據(jù)倉庫比數(shù)據(jù)庫還要大。到了90年代,人們才開始對數(shù)據(jù)倉庫里面的數(shù)據(jù)做了一些事情,叫做數(shù)據(jù)挖掘Data Mining。隨著90年代末期中期到2000年這個新的世紀里面,互聯(lián)網(wǎng)行業(yè)社交媒體還有云計算等等這些技術(shù)不斷地發(fā)展,人們又覺得這些詞都不夠了,于是就有了大數(shù)據(jù)Big Data?,F(xiàn)在在國外已經(jīng)創(chuàng)建了一個叫Extreme Data,也就是說大數(shù)據(jù)也不夠,還有極端數(shù)據(jù),為什么呢?
在我看來,大數(shù)據(jù)不過是人們在三、四十年前對數(shù)據(jù)的理解,以及對數(shù)據(jù)管理和運用手段的不斷提升,所以不要管這些詞的叫法,我們先看看大數(shù)據(jù)都做了哪些事情。
以中國的某電信運營商短信業(yè)務(wù)的數(shù)據(jù)來看,每年7000多億條短信,5年下來就是3萬多億,其實這些短信里面還是有很多價值可以挖掘的。想要挖掘這個東西難不難?3萬多億行數(shù)據(jù),先不說這個表有多寬,先說做一些數(shù)學(xué)的統(tǒng)計、分析,就已經(jīng)是一件非常困難的事情。
大數(shù)據(jù)的4V理論
目前業(yè)界對大數(shù)據(jù)總結(jié)出來一些特征,在這里,我用了4V理論來概括。
第一個V,數(shù)據(jù)量,它決定了大數(shù)據(jù)的基礎(chǔ)架子;
第二個V,速度。既使在大數(shù)據(jù)的數(shù)據(jù)量的規(guī)模下,企業(yè)其實還在要求能不能夠很快地把一些分析做出來。
第三個V,就是數(shù)據(jù)類型。過去我們在金融、電信行業(yè)里面經(jīng)常做一些非常簡單的數(shù)據(jù)集,比如說號碼、姓名、年齡、主叫人的號碼、被叫號碼、主叫時間等很結(jié)構(gòu)化、很整齊的一些數(shù)據(jù)?,F(xiàn)在有大量的數(shù)據(jù)不是結(jié)構(gòu)化的,是半結(jié)構(gòu)化的,比如一些文字,微博上的信息如何去分析,這就是大數(shù)據(jù)要解決的問題;
第四個V,變異,就是不管人們怎么去想象這些數(shù)據(jù),它隨時還都是在變的,變動越快、越大,對我們的處理能力提出的挑戰(zhàn)越大?,F(xiàn)在大家手上已經(jīng)不光是微博了,還有微信,已經(jīng)加上了聲音的信號,已經(jīng)有圖象甚至視頻。如何通過一個短信或者說彩信的方式發(fā)出去,怎么樣去處理這些信息,其實都是我們要面臨的問題。
大數(shù)據(jù)需要分析云平臺
分析這個詞,是在大數(shù)據(jù)或是云計算里面,必須要提到一個戰(zhàn)略高度來認識的詞。如果你的云計算平臺沒有考慮如何對存儲下來的一些數(shù)據(jù)進行分析的話,那你存的又是什么?如果你沒有辦法把這里面的價值挖掘出來的話,你怎么區(qū)分一個是金礦,一個是垃圾堆?我存了大量的垃圾能夠有用嗎?當然,沒有用處的。
大數(shù)據(jù)面臨的問題之一就是如何對數(shù)據(jù)進行快速地采集。數(shù)據(jù)的采集是非常困難的事情,對比現(xiàn)在的數(shù)據(jù)庫水平和數(shù)據(jù)增長的趨勢,可以看出,數(shù)據(jù)增長速度比我們現(xiàn)在數(shù)據(jù)庫的處理能力要大得多。
這里,大家可以看到一些耳熟能詳?shù)年P(guān)健詞,像Hadoop、MapReduce,像Sybase IQ代表的列式數(shù)據(jù)庫,還有Sybase Event Stream Processor事件流處理器,怎么樣對流數(shù)據(jù)進行實時的加工,都是企業(yè)現(xiàn)在需要掌握的一些技術(shù)。
大數(shù)據(jù)的分析還有一些周邊的、外延的工具,比如說像Matlab、SAS、SPSS或者現(xiàn)在非?;鸬腞evolution R。開源的里邊有Hive、SciPy,Mahout、AMPL等等這些技術(shù),在不同的領(lǐng)域里面都有很多人在研究、在分析著。
信息價值的挖掘有很多方法論和手段,比如說怎么樣去做社交媒體的分析,怎么樣去做行為分析、情緒分析。還有就是業(yè)務(wù)場景上個性化的服務(wù)、個性化的分析、個性化的推薦等等。
現(xiàn)在的數(shù)據(jù)庫市場在面臨這么大的數(shù)據(jù),這么復(fù)雜的數(shù)據(jù)類型,以及這么快的變化面前,已經(jīng)不再是一統(tǒng)天下的格局,沒有一個數(shù)據(jù)庫產(chǎn)品,或者沒有一種數(shù)據(jù)庫產(chǎn)品可以完全地解決大數(shù)據(jù)的問題。未來的格局可能是什么呢?
在一個企業(yè)或者是像一個IDC這樣的架構(gòu)里邊,必須要面臨一個工具箱的狀態(tài),這個工具箱里面有各種各樣的工具,每個工具的體驗點都是不一樣的,互相之間幾乎是不可取代的?,F(xiàn)在的數(shù)據(jù)庫市場也面臨這樣一個格局,很多時候做OLTP,要用行式數(shù)據(jù)庫,做大量的數(shù)據(jù)分析時要用列式數(shù)據(jù)庫,因為它可以帶來十倍、百倍的速度提高。
那么對大數(shù)據(jù)實時的處理,我們要用做數(shù)據(jù)流的分析數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫;在手機上或者說一些移動設(shè)備上要想做一些小的應(yīng)用,我們需要一些嵌入式的數(shù)據(jù)庫;還有面向?qū)ο髷?shù)據(jù)庫等等。在大數(shù)據(jù)的處理格局下,大家必須要接受這樣的一個觀點,就是專項的數(shù)據(jù)庫用于解決專項的問題。
分析云需要注意的事項
海量數(shù)據(jù)分析的云平臺,需要注意什么東西?它是按需分配的,這個和傳統(tǒng)的云計算概念是很相似的,就是資源就像水龍頭里的水一樣,人們可以不用去考慮后面的水是如何加工出來的,只需要打開龍頭就知道水會流出來。那么現(xiàn)在像SaaS、PaaS、IaaS等等這些技術(shù),必須要做到低成本、高性能。怎么樣更好地利用低端的硬件設(shè)備,而不是靠垂直擴展,能不能用低端的PC服務(wù)器搭成一個集群,將數(shù)據(jù)用何種方式來分置也好,統(tǒng)一管理也好,這是現(xiàn)在云計算或者說大數(shù)據(jù)分析必須要解決的問題。
另外,還要有豐富的數(shù)據(jù)類型的支持。在互聯(lián)網(wǎng)和電信行業(yè),面臨各種各樣新的數(shù)據(jù)類型的產(chǎn)生,企業(yè)需要能夠處理各種各樣的數(shù)據(jù)類型,同時備份和恢復(fù)也是一個容易忽視,但是又非常難、非常重要的一個問題。中國的很多企業(yè)在IT架構(gòu)上,尤其在數(shù)據(jù)庫平臺上,都處于一個裸奔的狀態(tài),賭天不會下雨,數(shù)據(jù)庫不需要備份。尤其是到上TB甚至幾十TB甚至上PB的時候,怎么樣做數(shù)據(jù)備份,怎么樣能夠持續(xù)地給你的用戶提供這樣的服務(wù)就值得思考了。
像亞馬遜這樣的國外大型互聯(lián)網(wǎng)企業(yè),他們在災(zāi)備或者是復(fù)制、恢復(fù)這些問題上,都是投入了大量的精力,而且有非常成熟的理論和方向,可供大家借鑒。
SAP 和Sybase領(lǐng)先的分析云平臺
SAP公司在云計算、分析云平臺上可謂是業(yè)界的領(lǐng)導(dǎo)者。在Gartner 2012年的數(shù)據(jù)倉庫四象限的評比中,SAP旗下的Sybase公司列式數(shù)據(jù)庫產(chǎn)品——Sybase IQ牢牢地占據(jù)領(lǐng)導(dǎo)者象限。
在數(shù)據(jù)庫市場,新老技術(shù)發(fā)展方向還有著一個非常明顯的對峙狀態(tài)。老技術(shù)基本上是以行式數(shù)據(jù)庫加上一些列式的存儲或者說列式的索引機制來提高性能的,而以Sybase IQ列式數(shù)據(jù)庫為代表的新技術(shù),以優(yōu)異的性能和低廉的成本,在數(shù)據(jù)倉庫以及大數(shù)據(jù)分析領(lǐng)域,占據(jù)著非常重要的地位。
Sybase IQ,到現(xiàn)在已經(jīng)是第15版了。那么,Sybase IQ在過去的一段時間里都解決了哪些問題呢?Sybase IQ解決了整個數(shù)據(jù)庫平臺底層非常強大的列式數(shù)據(jù)庫的功能、數(shù)據(jù)的生命周期管理,以及面對數(shù)據(jù)的高速加載,對結(jié)構(gòu)化和非結(jié)構(gòu)化的統(tǒng)一處理。特別要強調(diào)的一點,在中文的環(huán)境里面,列式數(shù)據(jù)庫現(xiàn)在就可以把中文的文本信息放到庫里面做好分詞的索引,然后可以和結(jié)構(gòu)化和非結(jié)構(gòu)化信息,在一個查詢里面進行統(tǒng)一的查詢,這是一個目前非常領(lǐng)先的技術(shù),尤其對中文環(huán)境來說。
此外,Sybase IQ在數(shù)據(jù)庫的平臺上提供了很多重要的應(yīng)用服務(wù),比如說像上面提到的內(nèi)置的文本分析、數(shù)據(jù)庫內(nèi)分析,還有一些WEB2.0的接口,還有大數(shù)據(jù)的開發(fā)接口,比如說像Hadoop、MapReduce,Sybase IQ都是支持的。另外,Sybase IQ提供了一整套的方法來扶持和擴充圍繞大數(shù)據(jù)的一個完整的生態(tài)環(huán)境,比如說生態(tài)環(huán)境里面有各種各樣的開放工具與監(jiān)測工具,現(xiàn)在,Sybase IQ開放了很多接口,可以使大家把過去在類似像Hadoop或是MapReduce,或者自己寫的一些東西可以直接嵌入到Sybase IQ里面來。
列式數(shù)據(jù)庫有幾個大的特點,在分析領(lǐng)域里面獨樹一幟。
首先是壓縮。很多用戶的數(shù)據(jù)從裸數(shù)據(jù)到行式數(shù)據(jù)庫里面可能需要占有一定的空間,但在列式數(shù)據(jù)庫里面,基本上會有將近10倍左右的壓縮比,這些壓縮比直接換到云計算平臺或者說大數(shù)據(jù)的處理平臺上,就是TCO。究竟是用10T來存儲1T的數(shù)據(jù),還是用0.5T來存儲1T的數(shù)據(jù)?而真正的列式數(shù)據(jù)庫的壓縮,是沒有解壓縮過程的。也就是說,列式數(shù)據(jù)庫以壓縮的形式進行運算,所以整個運算的成本非常低。真正的列式數(shù)據(jù)庫的運算效果相比行式數(shù)據(jù)庫、甚至相比某些帶了列式壓縮的行式數(shù)據(jù)庫,要好很多,而且還有著非常高的查詢效能。
在這里,必須要提一下內(nèi)存計算。我引用1998年一位圖靈獎獲得者的一句話,Tape is Dead, Disk is Tape, Main memory is Disk, CPU Cache is Main Memory。Sybase在3、4年前就已經(jīng)不再推薦使用磁帶來做Sybase IQ的備份了。
其次就是存儲。舉個例子,CPU里面有Level 1 Cache(一級緩存),它訪問的速度只有1納秒,就好像坐在家里沙發(fā)的我想喝一杯茶,最好這杯茶是在我沙發(fā)邊上的茶幾上,我一伸手就可以拿到。Level 2 Cache(二級緩存),訪問速度為5納秒,可以想象我是到了另外一個房間里面去拿這杯茶。Level 3 Cache(三級緩存)20納秒,我是出了房間到隔壁的房子里去拿這杯茶,Main Memory是100個納秒,好像是我要過馬路,到另外一個房子里面去拿。而Disk就好像是從北京到上海,從上海到廣州這樣一個遙遠的距離。
所以,大家要認識到存儲永遠是數(shù)據(jù)庫的一個非常重要的載體,同時存儲也是數(shù)據(jù)庫性能的一個最大的瓶頸,如何能夠提高存儲的效率,如果解決了這個問題,就解決了數(shù)據(jù)庫以及數(shù)據(jù)分析的效率問題。
另外,我還必須提到SAP的HANA。HANA是業(yè)界第一個完全基于內(nèi)存的、高性能的分析服務(wù)器,專門用于分析的一體機,其內(nèi)存計算對分析領(lǐng)域有著里程碑式的貢獻。HANA把所有的分析都放在內(nèi)存里面進行,整個架構(gòu)非常地優(yōu)越,可以有列式數(shù)據(jù)庫,也有行式數(shù)據(jù)庫,有內(nèi)置的數(shù)據(jù)復(fù)制軟件,也有各種各樣的建模軟件,是新一代的分析服務(wù)器。在HANA的架構(gòu)下,我們可以對一個企業(yè)下面70幾個分公司,幾千億條記錄,50個TB的數(shù)據(jù)進行分析,而它的分析速度僅為零點零幾秒,這個是以前不敢想象、也不敢去圍繞這樣的情境去提應(yīng)用需求的劃時代產(chǎn)品。
綜上所述,SAP公司在硬盤級、內(nèi)存級甚至加上CPU的緩存級,為業(yè)界提供了非常優(yōu)秀的分析平臺,在分析云、大數(shù)據(jù)的分析領(lǐng)域是一個非常重要的提供商。