大家也許還沒(méi)意識(shí)到,但實(shí)際上數(shù)據(jù)的重要意義已經(jīng)不局限于計(jì)算機(jī)系統(tǒng)當(dāng)中的關(guān)鍵性要素——數(shù)據(jù)已經(jīng)在各個(gè)領(lǐng)域開(kāi)枝散葉、成為維系整個(gè)世界的樞紐。
引用來(lái)自摩根大通公司一位常務(wù)董事的評(píng)價(jià),數(shù)據(jù)已經(jīng)成為“企業(yè)的命脈”。他是在最近剛剛舉辦的一場(chǎng)重要技術(shù)會(huì)議(以數(shù)據(jù)為主要討論對(duì)象)上拋出這番言論的,本次會(huì)議還深入解析了各機(jī)構(gòu)走向“數(shù)據(jù)驅(qū)動(dòng)”之路的途徑。
《哈佛商業(yè)評(píng)論》雜志稱(chēng)“數(shù)據(jù)科學(xué)家”將成為“二十一世紀(jì)最性感的職位”。在這篇刊發(fā)的文章中,作者詳細(xì)描述了Netflix如何采集每位用戶(hù)所進(jìn)行的每一項(xiàng)操作,并將我們“從快樂(lè)的用戶(hù)轉(zhuǎn)化成無(wú)意識(shí)的傀儡”。文章還告誡大家稱(chēng)“海量數(shù)據(jù)分析與處理已經(jīng)成為現(xiàn)實(shí),且有愈演愈烈之勢(shì)。”
不顧后果、毫無(wú)章法地使用“大數(shù)據(jù)”概念
前面提到的所有文章都在極力鼓吹大數(shù)據(jù)的優(yōu)勢(shì)與威能,并希望借此實(shí)現(xiàn)大數(shù)據(jù)的宣傳、營(yíng)銷(xiāo)或者盈利目標(biāo)——毫無(wú)疑問(wèn),大數(shù)據(jù)已經(jīng)成為今年最耀眼的技術(shù)發(fā)展趨勢(shì)。如果讀者朋友自己是技術(shù)人士,應(yīng)該會(huì)明顯感覺(jué)到如今這個(gè)時(shí)代開(kāi)口不談大數(shù)據(jù)簡(jiǎn)直沒(méi)臉跟同仁打招呼。但與此同時(shí),大家似乎對(duì)這個(gè)話題都說(shuō)不出個(gè)所以然,因?yàn)闆](méi)幾個(gè)人能真正說(shuō)清大數(shù)據(jù)是個(gè)什么玩意兒。呃,其實(shí)這一結(jié)論也有點(diǎn)武斷。嚴(yán)格來(lái)說(shuō),目前的大數(shù)據(jù)概念主要從屬于幾股以產(chǎn)品為載體的派別:
·由于業(yè)界大佬谷歌、Facebook及Amazon對(duì)于信息的極度渴求,處于爆炸式增長(zhǎng)中的新數(shù)據(jù)被批量收集起來(lái)(包括存儲(chǔ)、處理以及分析)。
·信息的多元化特性愈發(fā)顯著,這一狀況源自網(wǎng)上購(gòu)物、Facebook狀態(tài)更新、tweet內(nèi)容、圖片共享以及各類(lèi)登記資料等等。
·整個(gè)業(yè)界都在渴求一種能夠?qū)⑷绱她嫶髷?shù)據(jù)盡快、盡可能高效打理好的方案。
然而大數(shù)據(jù)概念似乎正被不顧后果、毫無(wú)章法地過(guò)度使用;即使偶爾使用方法對(duì)路,其適用范圍也并不像技術(shù)人員想象的那么寬泛。
前面提到的三種派別都是真實(shí)存在的。谷歌公司正在極力攫取來(lái)自各類(lèi)資源的每一字節(jié)信息內(nèi)容,試圖為盡可能多的用戶(hù)創(chuàng)建與其使用習(xí)慣相匹配的配置文件。(這種思路無(wú)疑是把雙刃劍:就以GoogleNow為例,它會(huì)以‘在客戶(hù)發(fā)現(xiàn)需求前推薦合適的產(chǎn)品’為借口大肆進(jìn)行廣告宣傳——但在這里我們不打算討論道德層面的問(wèn)題。)
很顯然,這種源自各類(lèi)源頭的數(shù)據(jù)信息不會(huì)以規(guī)則的形式存在。因此谷歌公司可能需要一套獨(dú)特的處理工具集來(lái)打理這些數(shù)據(jù),至少這類(lèi)方案不同于過(guò)去存在的任何數(shù)據(jù)數(shù)量及類(lèi)型。
目前聲名最盛的兩大工具分別為Hadoop——一款非關(guān)系型分布式數(shù)據(jù)庫(kù)框架——與MapReduce——一套由谷歌公司開(kāi)發(fā)的算法集合,旨在將來(lái)自各類(lèi)資源的多元化數(shù)據(jù)整理為獨(dú)立的一套鍵/值對(duì)。通過(guò)Hadoop與MapReduce,谷歌能夠?qū)⒑A繑?shù)據(jù)集合拆分為可以管理的數(shù)據(jù)塊,并通過(guò)服務(wù)器群獨(dú)立處理這些非狀態(tài)化數(shù)據(jù)塊。
這一切真能成為現(xiàn)實(shí)嗎?在無(wú)需復(fù)雜的預(yù)處理過(guò)程的前提下將原本無(wú)法輕松、快速管理的大數(shù)據(jù)集合通過(guò)關(guān)系型數(shù)據(jù)庫(kù)打理好?有可能。
谷歌公司的特殊需求
MapReduce真如傳聞中那樣有能力承載數(shù)據(jù)合并技術(shù)之王、游戲規(guī)則改寫(xiě)者的桂冠嗎?答案幾乎是否定的:谷歌公司此項(xiàng)專(zhuān)利技術(shù)的合法性一直備受質(zhì)疑,而且不少現(xiàn)有產(chǎn)品都能夠以更簡(jiǎn)單的方式輕松實(shí)現(xiàn)相同的功能。目前谷歌在網(wǎng)絡(luò)上公布的基本MapReduce實(shí)例只有幾十行Java代碼,從這些內(nèi)容上看我們找不到任何革命性的理念及突破。
但我們姑且假設(shè)谷歌公司需要這些工具來(lái)滿(mǎn)足自身非常獨(dú)特的需求,換言之,我們不妨假定各類(lèi)現(xiàn)有工具及數(shù)據(jù)庫(kù)框架還不足以實(shí)現(xiàn)谷歌的技術(shù)雄心。在這種情況下,大數(shù)據(jù)顯然并不能成為適用于所有機(jī)構(gòu)、適合處理所有海量計(jì)算機(jī)應(yīng)用的方案。盡管大數(shù)據(jù)支持者們始終堅(jiān)信這一點(diǎn),但我們對(duì)于此類(lèi)新型數(shù)據(jù)庫(kù)及軟件模型尚無(wú)法寄托如此級(jí)別的厚望。
大量數(shù)據(jù),甚至是海量數(shù)據(jù)的不斷涌現(xiàn)也早已算不上什么新鮮事。在投資銀行領(lǐng)域,高頻交易系統(tǒng)始終需要以微秒為時(shí)間單位處理眾多交易事務(wù);市場(chǎng)數(shù)據(jù)引擎多年來(lái)也一直需要以秒為單位存儲(chǔ)并處理成千上萬(wàn)價(jià)格標(biāo)記。
再來(lái)說(shuō)說(shuō)我的朋友KenCaldeira,他在斯坦福大學(xué)卡內(nèi)基研究所里埋頭鼓搗氣象科學(xué)。正如預(yù)料,我發(fā)現(xiàn)他經(jīng)常需要與“PB級(jí)數(shù)據(jù)”打交道。我另一位曾在華爾街接受過(guò)數(shù)據(jù)分析工程培訓(xùn)的物理學(xué)家同事則在2000年之后花了長(zhǎng)時(shí)間搞基因組研究,根據(jù)他的說(shuō)法整個(gè)研究過(guò)程中存在“數(shù)據(jù)驚人的數(shù)據(jù)需要進(jìn)行分析”。
在大數(shù)據(jù)的時(shí)代,前所未有的龐大數(shù)據(jù)集經(jīng)常被引用、幾乎每個(gè)人都或多或少與之有所接觸,而上一代工具面對(duì)如此規(guī)模的工作量顯得非常無(wú)力。
但在大多數(shù)情況下,Caldeira和我的數(shù)據(jù)分析專(zhuān)家朋友還在使用……Python腳本與C++來(lái)解決問(wèn)題。沒(méi)錯(cuò),確實(shí)有不少大數(shù)據(jù)用戶(hù)目前在使用大規(guī)模并行架構(gòu)、集群及云計(jì)算實(shí)現(xiàn)處理工作,但這種做法已經(jīng)出現(xiàn)了十年以上;而且如我的朋友所指出,“人們常常分不清自己在云中做出的成果跟他人有何區(qū)別,這是因?yàn)樵骗h(huán)境下的數(shù)據(jù)無(wú)法明確區(qū)分出不同開(kāi)發(fā)者做出的貢獻(xiàn)。”利用分布式數(shù)據(jù)庫(kù)來(lái)贏得更快的速度與更安全的冗余機(jī)制對(duì)于每位用戶(hù)都非常重要,至少能夠幫助我們顯著壓縮現(xiàn)有硬件成本。
你能想象自己信賴(lài)的銀行在tweet及Facebook博文中計(jì)算賬戶(hù)信息嗎?
另一種引發(fā)大數(shù)據(jù)算法變革的因素在于不同類(lèi)型數(shù)據(jù)的爆炸式增長(zhǎng)。正如前文所述,谷歌與Facebook等公司需要為配置文件或來(lái)自各類(lèi)資源的統(tǒng)計(jì)信息進(jìn)行創(chuàng)建及處理工作,更令人頭痛的是這些信息的格式同樣多種多樣。當(dāng)然,并不是每位用戶(hù)都面臨著這樣的問(wèn)題。當(dāng)人們討論這些新型、凌亂繁雜的非結(jié)構(gòu)化數(shù)據(jù)時(shí),他們大多數(shù)情況下指的都是來(lái)自社交網(wǎng)絡(luò)及博客平臺(tái)的信息。
銀行領(lǐng)域所使用的核心系統(tǒng)(在處理交易事務(wù)方面,老式關(guān)系類(lèi)數(shù)據(jù)庫(kù)仍然占據(jù)著絕對(duì)的統(tǒng)治地位)真的需要接觸到社交媒體數(shù)據(jù)嗎?庫(kù)存系統(tǒng)、數(shù)字目錄或者癌癥研究人士所使用的系統(tǒng)呢?我們還需要考慮,如果數(shù)據(jù)出于某種原因而無(wú)法通過(guò)分布式、無(wú)狀態(tài)的方式處理,大數(shù)據(jù)技術(shù)又能起什么作用?
高度非結(jié)構(gòu)化數(shù)據(jù)仍然占據(jù)著專(zhuān)門(mén)但規(guī)模相對(duì)有限的利基市場(chǎng),但其表現(xiàn)與地位則相當(dāng)搶眼。與當(dāng)下常見(jiàn)的系統(tǒng)不同,大數(shù)據(jù)技術(shù)不需要對(duì)來(lái)自各類(lèi)資源的合并數(shù)據(jù)提前進(jìn)行解析、翻譯或者預(yù)處理。
如果某家公司在多年之后突然認(rèn)為自己需要大數(shù)據(jù)技術(shù)來(lái)讓業(yè)務(wù)更進(jìn)一步,則意味著他們一定在業(yè)務(wù)領(lǐng)域迎來(lái)了根本性轉(zhuǎn)變、開(kāi)始走向與之前的經(jīng)營(yíng)方式完全不同的發(fā)展道路——很顯然,即使是在極端情況下上述假設(shè)也很難成立。