近一兩年來,尤其進(jìn)入2012年后,“大數(shù)據(jù)”這個(gè)詞兒就塞滿了耳朵,無論是IT廠商,還是經(jīng)濟(jì)學(xué)家,還是媒體,似乎如果不討論“大數(shù)據(jù)”,那就已經(jīng)out了。筆者分別在百度和Google搜索了一下“大數(shù)據(jù)”,百度說“找到相關(guān)結(jié)果約13,100,000個(gè)”,Google說“找到約 623,000,000 條結(jié)果”,這里我們不討論為何百度和Google為何出現(xiàn)了較大的搜索差異,從搜索結(jié)果能夠看出,“大數(shù)據(jù)”這個(gè)東西,現(xiàn)在有多么火。
這不免讓筆者想起 “云計(jì)算”被熱炒的時(shí)候,大概從08年開始吧,網(wǎng)絡(luò)上所看到的,從各個(gè)IT廠商口中所聽到的,幾乎一切都開始被“云”籠罩,云計(jì)算迅速席卷了幾乎IT的每個(gè)角落,而各類人對于云的不同看法,也迅速讓云計(jì)算變成“暈計(jì)算”。至今,云計(jì)算的成功案例雖然有,但相比起初業(yè)內(nèi)對這種新事物的憧憬,卻顯得少得可憐??陀^的說,云是一種的很好的IT使用模式,但未必適合所有應(yīng)用和企業(yè),熱捧讓云的作用夸大,帶來了不少泡沫和誤區(qū)。
云計(jì)算方興未艾,如今,大數(shù)據(jù)又開始興起,這一波又一波的新浪潮,對于大多數(shù)企業(yè)來說,是否已經(jīng)讓您感到了“不是我不明白,是這世界變化快”?大數(shù)據(jù)到底是個(gè)什么玩意兒,跟我有啥關(guān)系?這個(gè)事物又是一個(gè)新的噱頭,還是即將開啟一個(gè)新的時(shí)代?
想必,有這些問題的人還不算少。
那么,到底什么是大數(shù)據(jù)?
和云計(jì)算一樣,大數(shù)據(jù)目前也還沒有一個(gè)標(biāo)準(zhǔn)的、能夠記錄在教科書上的定義。筆者搜集了一下,對于大數(shù)據(jù)的普遍認(rèn)知主要有以下幾種:大數(shù)據(jù)就是海量的數(shù)據(jù);是大量增長的交易數(shù)據(jù);需要存儲并進(jìn)行監(jiān)管的數(shù)據(jù);爆炸的新數(shù)據(jù)來源;等等。對于大數(shù)據(jù)中“大”的理解,主要有兩個(gè)方面,第一種是指大量的、快速增長的數(shù)據(jù),第二種則是數(shù)據(jù)中所蘊(yùn)含的大的價(jià)值和洞察。
最早提出大數(shù)據(jù)時(shí)代來臨的是知名咨詢公司麥肯錫,麥肯錫認(rèn)為,數(shù)據(jù)逐漸成為重要的生產(chǎn)因素,人們對于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。在報(bào)告發(fā)布后,大數(shù)據(jù)迅速成為IT業(yè)關(guān)注的熱點(diǎn),也引起了金融界的高度重視。筆者不能對于什么是大數(shù)據(jù)妄加論斷,對于大數(shù)據(jù)的描述,我們不妨來看看目前幾家涉足大數(shù)據(jù)的IT廠商的看法:
IBM大中華區(qū)董事長錢大群曾在IBM論壇2012上表示,大數(shù)據(jù)時(shí)代的到來,則使得數(shù)據(jù)更為重要,通過對數(shù)據(jù)的分析,可以為決策者提供更有建設(shè)性的看法。對于大數(shù)據(jù),IBM提出了規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)和真實(shí)性(Veracity)的“4V理論”;戴爾公司全球企業(yè)級解決方案副總裁Cheryl Cook認(rèn)為,大數(shù)據(jù)就是指有大量的、快速的和多樣化的數(shù)據(jù)集合以及由此帶來的數(shù)據(jù)分析所導(dǎo)致的大的見解,同樣,戴爾提出了大數(shù)據(jù)的五個(gè)階段。
甲骨文公司副總裁兼大中華區(qū)技術(shù)總經(jīng)理喻思成則認(rèn)為,在大數(shù)據(jù)的實(shí)際應(yīng)用中,用戶的最終目的是要利用大數(shù)據(jù)來進(jìn)行更好的決策。這一過程是由四個(gè)部分來組成的:數(shù)據(jù)捕獲、組織、分析和決策。NetApp 大中華區(qū)總經(jīng)理陳文表示,大數(shù)據(jù)要包括A、B、C三個(gè)要素:大分析(Analytic),高帶寬(Bandwidth)和大內(nèi)容(Content)。
雖然定義并不完全相同,但是這些廠商眼中的大數(shù)據(jù)有這么幾個(gè)特點(diǎn):數(shù)據(jù)很多并且很多樣,這些數(shù)據(jù)需要進(jìn)行組織分析,就像在沙堆中尋覓金粒,找到對自身有用的信息;從數(shù)據(jù)分析結(jié)果中獲得決策,就像大數(shù)據(jù)廠商們所一直宣傳的,公司決策應(yīng)當(dāng)更加依賴于數(shù)據(jù)而不是經(jīng)驗(yàn)。
認(rèn)清大數(shù)據(jù),盲目跟風(fēng)不可取
就和云計(jì)算一樣,大數(shù)據(jù)的本旨是好的,經(jīng)過數(shù)據(jù)分析做出的決策也許要比經(jīng)驗(yàn)更加靠譜。大數(shù)據(jù)廠商經(jīng)常舉出的例子就是零售業(yè),比如經(jīng)過消費(fèi)者購買行為分析,將某某商品和某某商品放到一起,有效提高了銷量;又如房地產(chǎn)業(yè),從搜索引擎反饋的消費(fèi)者對房市的搜索結(jié)果,甚至能夠預(yù)測到樓盤的銷量。
但是,這一切真的都要?dú)w功于“大數(shù)據(jù)”么?我想舉個(gè)例子,小李每天上班都要經(jīng)過一條沒有名字的公路,這條公路平時(shí)也頗為繁華,車水馬龍,但是有條不紊。有一天,這條公路被商人買下了,將其命名為“大數(shù)據(jù)公路”,并增加了不少便利設(shè)施;接著,商人聯(lián)合了另外幾個(gè)商人,封鎖了附近其他幾條小路,告誡行人們必須都要走“大數(shù)據(jù)公路”,其他路則不通。于是,人們被迫蜂擁而至,原本順暢的公路也開始擁堵,交通狀況日漸復(fù)雜,行人也不免怨聲載道,而商人們正在考慮的,就是下一步該怎么收取過路費(fèi)了。
這個(gè)比喻可能并不恰當(dāng),僅僅是筆者的一點(diǎn)看法,想說明的是,大數(shù)據(jù)是個(gè)好東西,但是其價(jià)值沒必要被無限的夸大,就像云計(jì)算誕生之初,IT幾乎方方面面都開始向云計(jì)算靠攏,比如網(wǎng)絡(luò)空間變成了云存儲,虛擬化也變成了云計(jì)算,很多新生的產(chǎn)品和技術(shù)無非是將傳統(tǒng)技術(shù)進(jìn)行“時(shí)髦化”的包裝。大數(shù)據(jù)也是如此,正如上面的例子,也許我們以前所走的就是一條正確的道路,并非是走“大數(shù)據(jù)公路”才能走的更快;如果就是每天上班下班,那也不一定非要走“大數(shù)據(jù)公路”,走條小路,沒準(zhǔn)走的更快,還不用交過路費(fèi)。
噱頭和熱炒背后總有商業(yè)價(jià)值在里面,作為消費(fèi)者,還需認(rèn)清。對于普通企業(yè),也許并不需要大數(shù)據(jù),首先,數(shù)據(jù)量可能沒那么大,其中所蘊(yùn)含的價(jià)值也許更沒有那么大,就好比在一堆沙子中挑出金子,金子未必會有,而挑出金子這個(gè)過程中所耗費(fèi)的人力物力,也許早就超出了金子的價(jià)值。那么,大數(shù)據(jù)適合哪些企業(yè)?當(dāng)然,首先這些企業(yè)要擁有大的數(shù)據(jù),比如金融——金融業(yè)也是最早對大數(shù)據(jù)產(chǎn)生興趣的行業(yè)、大型零售企業(yè)、房地產(chǎn)、電信等等,沙子多了,從中挑出金子的幾率也就更多了,所以說大數(shù)據(jù)并非適合所有企業(yè),想要擁抱大數(shù)據(jù),還需從自身情況出發(fā),最好的技術(shù),未必就是最適合自身的。
和云計(jì)算一樣,大數(shù)據(jù)同樣描繪出了一副美麗的應(yīng)用前景。但云計(jì)算所提出的,像水電一樣應(yīng)用IT資源,徹底改變IT的應(yīng)用模式,目前似乎還離我們還比較遙遠(yuǎn);而大數(shù)據(jù)作為一種新的IT應(yīng)用趨勢,想要真正創(chuàng)造出價(jià)值,也許還需要幾年時(shí)間吧。制約大數(shù)據(jù)發(fā)展的一個(gè)主要因素就是人才。某國際知名IT廠商全球副總裁曾對筆者說,大數(shù)據(jù)的保存、分類是一個(gè)挑戰(zhàn),但是更關(guān)鍵的一點(diǎn)是懂得Hadoop應(yīng)用開發(fā)的人才太少,這是最大的挑戰(zhàn)。這位高管表示,中國真正懂得Hadoop技術(shù)的人不超過2000人,很多都是集中在一個(gè)企業(yè)中,特別是互聯(lián)網(wǎng)行業(yè)比較多,做應(yīng)用開發(fā)的人才不夠,大數(shù)據(jù)的應(yīng)用很難推廣。
還有一些IT企業(yè)提出了大數(shù)據(jù)中的所需要注意的,比如,IBM中國研發(fā)中心信息管理總經(jīng)理朱輝表示,應(yīng)對大數(shù)據(jù)挑戰(zhàn)是需要一整套解決方案的,單靠Hadoop或者NoSQL等單一的技術(shù)或者產(chǎn)品都不能從根本上解決問題,還需要傳統(tǒng)技術(shù)與新技術(shù)的融合;SGI CEO馬克·巴雷內(nèi)切亞認(rèn)為,大數(shù)據(jù)的產(chǎn)生越來越快,越來越多。很多數(shù)據(jù)經(jīng)過很短時(shí)間使用以后,就很難使用了,但又不能丟棄。這就牽扯到大數(shù)據(jù)長期管理的問題。因此,如何快速、安全的存儲和管理大數(shù)據(jù)非常重要。
總的來說,云計(jì)算、物聯(lián)網(wǎng)、Web2.0、社交網(wǎng)絡(luò)、移動互連的快速發(fā)展讓數(shù)據(jù)前所未有的增長,并且更加集中,這種趨勢也將一直持續(xù)下去。海量的數(shù)據(jù)中,自然也蘊(yùn)含著大的商業(yè)價(jià)值,這點(diǎn)筆者并不否認(rèn)。但是大數(shù)據(jù)這種應(yīng)用目前來看還只是少數(shù)企業(yè)的專利,在諸多的宣傳中其作用不免被放大,對于更多的企業(yè)來說,還需要認(rèn)清自身需要,最好的技術(shù)未必是最適合的,多看看,多對比,盲目跟風(fēng)是不可取的。