到了2020年,人類一年所產(chǎn)生的數(shù)據(jù)將是1000個(gè)谷歌或10000個(gè)百度,在數(shù)據(jù)化生存時(shí)代,企業(yè)要做哪些準(zhǔn)備?
在大數(shù)據(jù)啟蒙階段,《大數(shù)據(jù)時(shí)代》作者、牛津大學(xué)教授維克托·邁爾·舍恩伯格曾應(yīng)邀去多家中國(guó)著名企業(yè)宣講過大數(shù)據(jù)帶來的變革;最近一年,各類大數(shù)據(jù)方案企業(yè)也開始越來越多地談?wù)摯髷?shù)據(jù)技術(shù)的實(shí)現(xiàn)。
今年夏季,在騰訊舉辦的大數(shù)據(jù)論壇上,騰訊高管與來自全球最頂尖的學(xué)者熱烈地討論著大數(shù)據(jù)的各種迷思——隱私、互聯(lián)互通和數(shù)據(jù)交易。在最近一個(gè)大數(shù)據(jù)的活動(dòng)中,大數(shù)據(jù)開源技術(shù)Hadoop之父Doug Cutting以及大數(shù)據(jù)鏈條上掌握著命脈的“原油型”公司——英特爾和Cloudera的牛人們?cè)俅尉凼住?/p>
數(shù)據(jù)化生存
IT行業(yè)的“指數(shù)效應(yīng)”威力驚人,比如,IT的基石芯片行業(yè)有個(gè)摩爾定律,每18個(gè)月芯片上集成的晶體管數(shù)會(huì)翻番,由此會(huì)帶來一系列指數(shù)式連鎖反應(yīng)——CPU的性能翻番,芯片的成本折半,功耗也會(huì)折半。這也就是大家為什么看到電子產(chǎn)品快速降價(jià)的根本原因。
市場(chǎng)調(diào)研公司IDC認(rèn)為,大數(shù)據(jù)行業(yè)也有“摩爾定律”。英特爾中國(guó)研究院院長(zhǎng)吳甘沙非常認(rèn)同這個(gè)說法,他曾是英特爾中國(guó)研究院首位“首席工程師”,主持大數(shù)據(jù)研究。“如果說摩爾定律是我們所在的指數(shù)社會(huì)的基因,那么大數(shù)據(jù)就是指數(shù)社會(huì)的蛋白質(zhì)。”吳甘沙說。
有人說大數(shù)據(jù)是新的原材料、新的原油、新的資產(chǎn),甚至是新的貨幣,而吳甘沙認(rèn)為,人類現(xiàn)在的生存就是一場(chǎng)數(shù)據(jù)化生存。人類社會(huì)的各類設(shè)備在不停地感知、傳輸、存儲(chǔ)數(shù)據(jù)。今天,人們認(rèn)為谷歌可能是最大的數(shù)據(jù)擁有者之一,但按照指數(shù)增長(zhǎng)規(guī)律,到2020年,一年所產(chǎn)生的數(shù)據(jù)將是1000個(gè)今天的谷歌或10000個(gè)百度。
“我們看到數(shù)據(jù)和計(jì)算能力在過去15年間一直呈現(xiàn)指數(shù)級(jí)增長(zhǎng),這種增長(zhǎng)給我們帶來了根本性變化——不能再看單獨(dú)的數(shù)據(jù),而是把全部數(shù)據(jù)放在一起來考慮,來描繪出對(duì)人、企業(yè)或是業(yè)務(wù)的高清晰圖像。”大數(shù)據(jù)之父Doug Cutting說,“這件事是一個(gè)革命性、階段性的變化。”Doug Cutting是開源技術(shù)世界中一個(gè)很具影響力的人物,他打造了目前在云計(jì)算和大數(shù)據(jù)領(lǐng)域里如日中天的開源技術(shù)Hadoop。他是Apache 基金會(huì)主席,也是大數(shù)據(jù)平臺(tái)企業(yè)Cloudera的首席技術(shù)官。
大量、快速增長(zhǎng)的數(shù)據(jù)需要實(shí)時(shí)儲(chǔ)存、整合和分析,過去的IT架構(gòu)已經(jīng)無法應(yīng)付,這就促成了一種名為Hadoop開源新架構(gòu)的誕生,這是個(gè)可以無限擴(kuò)容的分布式計(jì)算結(jié)構(gòu)。
在這個(gè)無限擴(kuò)容開放式架構(gòu)的發(fā)展大勢(shì)下,IT業(yè)界才倡導(dǎo)了“軟件定義基礎(chǔ)設(shè)施”的趨勢(shì),把計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)做成開放式的標(biāo)準(zhǔn)模塊,降低設(shè)施的門檻;在基礎(chǔ)設(shè)施之上,推動(dòng)開放、可信數(shù)據(jù)處理平臺(tái)Hadoop;在此之上,推動(dòng)整個(gè)生態(tài)圈的創(chuàng)新,實(shí)現(xiàn)各類分析應(yīng)用,把高級(jí)分析功能平民化,使得它能邁入主流市場(chǎng),實(shí)現(xiàn)規(guī)模經(jīng)濟(jì)。
數(shù)據(jù)咖啡館
騰訊高級(jí)副總裁湯道生曾請(qǐng)教歐洲信息哲學(xué)創(chuàng)始人、牛津大學(xué)教授Luciano Floridi一個(gè)困擾騰訊大數(shù)據(jù)應(yīng)用的問題——數(shù)據(jù)如何互聯(lián)互通,這對(duì)于發(fā)揮數(shù)據(jù)的價(jià)值至關(guān)重要。
現(xiàn)在,數(shù)據(jù)已成為各個(gè)組織的商業(yè)資產(chǎn),數(shù)據(jù)交換成為一個(gè)挑戰(zhàn)。Luciano以人類早先對(duì)石油資源的應(yīng)對(duì)方式進(jìn)行類比:挪威當(dāng)年建立了復(fù)雜的綜合體系去處理自然資源,從而讓整個(gè)人群受益?,F(xiàn)在,政府和手握數(shù)據(jù)的企業(yè)也有責(zé)任去摸索一個(gè)綜合體系,把數(shù)據(jù)的價(jià)值擴(kuò)大到廣泛的人群。
在英特爾,吳甘沙他們也正在開展“數(shù)據(jù)安全流通以及定價(jià)”這樣的研究。英特爾有一個(gè)研究平臺(tái),叫做“數(shù)據(jù)咖啡館”,意思是希望這個(gè)平臺(tái)能像咖啡館那樣起到“匯聚”作用,匯聚不同領(lǐng)域、不同企業(yè)的數(shù)據(jù),一起來產(chǎn)生新的價(jià)值。這里面需要大量的核心技術(shù),例如,頂層的多方安全計(jì)算、數(shù)據(jù)審計(jì)及定價(jià)等。
英特爾與美國(guó)癌癥研究機(jī)構(gòu)開展合作。癌癥是一個(gè)典型的長(zhǎng)尾病癥。過去50年來,癌癥的治愈率僅僅提升了約8%,這是因?yàn)檠芯繖C(jī)構(gòu)擁有的基因組樣本太少了。如果通過“數(shù)據(jù)咖啡館”把基因組樣本聚合起來,就能期待癌癥技術(shù)獲得突破。而聚合就需要數(shù)據(jù)交易。
在某種程度上,目前的數(shù)據(jù)是論斤按兩來交易的,因?yàn)閿?shù)據(jù)的價(jià)格很難衡量與預(yù)測(cè)。“在這樣一種數(shù)據(jù)不易定價(jià)的情況下,我們的理念是先用起來,在使用過程中去發(fā)現(xiàn)它的價(jià)值。”吳甘沙說。
在英特爾宏大的愿景中,希望在2020年之前,一天之內(nèi)能完成三件事:對(duì)病人進(jìn)行全基因組測(cè)序,鎖定癌癥的相關(guān)基因,形成個(gè)性化的用藥以及修復(fù)方案。現(xiàn)在癌癥很難治愈的原因是新藥更新速度趕不上癌細(xì)胞的變化速度,有了大數(shù)據(jù)技術(shù),癌癥治愈率將指日可待。
數(shù)據(jù)交易只是英特爾在大數(shù)據(jù)研究上的重要方向之一。英特爾的其他重要研究領(lǐng)域還涵蓋兩個(gè)重要領(lǐng)域:數(shù)據(jù)與機(jī)器的關(guān)系——什么樣的可擴(kuò)展架構(gòu)能更好地存儲(chǔ)和處理數(shù)據(jù);人和數(shù)據(jù)之間的關(guān)系——什么樣的分析工具能增強(qiáng)人的分析能力。
以往,在英特爾,1~3年的事由產(chǎn)品部門來做,3~5年的由英特爾研究院來做,5~8年的與大學(xué)合作研究。但在這樣一個(gè)不可預(yù)測(cè)的時(shí)代下,英特爾把對(duì)“大數(shù)據(jù)”的研發(fā)周期進(jìn)一步縮短,與大學(xué)合作研究的技術(shù)也希望盡快推向市場(chǎng),像Spark、集成了數(shù)據(jù)分析及交換的Datahub,內(nèi)存數(shù)據(jù)庫H-Store、可視化、深度學(xué)習(xí)(Deep learning)等。
大數(shù)據(jù)之星
今年3月,英特爾以7.4億美元收購了Cloudera18%的股份,成為Cloudera的戰(zhàn)略投資者。一家IT巨頭的高管評(píng)論說:“英特爾占領(lǐng)了大數(shù)據(jù)領(lǐng)域的制高點(diǎn)。”
Cloudera是一家在大數(shù)據(jù)領(lǐng)域起著關(guān)鍵作用的創(chuàng)新企業(yè)。它由來自Facebook、谷歌、雅虎和甲骨文的高管和工程師在2008年創(chuàng)建,其商業(yè)模式類似Linux領(lǐng)域的開源軟件企業(yè)紅帽公司(Red Hat)。
開源技術(shù)的開發(fā)類似今天互聯(lián)網(wǎng)世界的眾籌模式——成千上萬背景不同的技術(shù)愛好者聚集在一個(gè)“開源社區(qū)”中,一起創(chuàng)造一個(gè)他們熱愛的軟件技術(shù),人們可以自由使用。在此過程中,紅帽創(chuàng)造了一種名為“訂閱”的商業(yè)模式,它基于開源社區(qū)的軟件,通過更多測(cè)試和驗(yàn)證,開發(fā)出更穩(wěn)定、更易用的“企業(yè)版”。用戶可以免費(fèi)使用它,但如果需要技術(shù)支持和咨詢服務(wù)就要付費(fèi)。Cloudera仿照紅帽模式,提供企業(yè)級(jí)Hadoop平臺(tái)的服務(wù)。
如今,Cloudera已經(jīng)帶頭形成全球最大的大數(shù)據(jù)生態(tài)鏈,有1200個(gè)合作伙伴。在美國(guó),每天70%的智能手機(jī)數(shù)據(jù)都是在Cloudera平臺(tái)上進(jìn)行處理的。同時(shí),Cloudera對(duì)新興大數(shù)據(jù)領(lǐng)域進(jìn)行普及,在全球培訓(xùn)了5萬多名Hadoop專家。
9月,Cloudera落戶中國(guó)。苗凱翔成為其在中國(guó)的第一個(gè)員工,擔(dān)任該公司中國(guó)區(qū)副總裁。之前,他在英特爾負(fù)責(zé)大數(shù)據(jù)業(yè)務(wù),參與了中國(guó)第一個(gè)Hadoop項(xiàng)目——2011年中國(guó)移動(dòng)的通話詳單查詢項(xiàng)目。
苗凱翔發(fā)現(xiàn),美國(guó)的大數(shù)據(jù)業(yè)務(wù)發(fā)展要比中國(guó)早兩年,美國(guó)很多集群規(guī)模都已是上千個(gè)節(jié)點(diǎn),中國(guó)才幾十個(gè),他預(yù)計(jì)明年中國(guó)企業(yè)會(huì)部署更大的集群。
“中國(guó)的企業(yè),如運(yùn)營(yíng)商、銀行在大數(shù)據(jù)的規(guī)劃上越來越務(wù)實(shí),設(shè)想也越來越大。目前他們要先想清楚大數(shù)據(jù)的商業(yè)價(jià)值。”苗凱翔說,“還要考慮清楚用大數(shù)據(jù)的目的是節(jié)省成本,還是創(chuàng)造價(jià)值,這是大數(shù)據(jù)的兩個(gè)主題。”
苗凱翔用全球最大在線支付公司的實(shí)踐來說明大數(shù)據(jù)的意義。這家企業(yè)本來用小型機(jī)做數(shù)據(jù)存儲(chǔ),在備份系統(tǒng)建設(shè)中,如果使用同樣的小型機(jī),一套就要上千萬美元,太昂貴。最后,它們購買了Hadoop平臺(tái)。Hadoop已經(jīng)足夠穩(wěn)定、容量非常龐大,成本只是小型機(jī)的幾十分之一甚至幾百份之一,可以為企業(yè)節(jié)省可觀的成本。這是企業(yè)使用大數(shù)據(jù)技術(shù)的第一步。之后,這家企業(yè)又基于Hadoop平臺(tái)開展新業(yè)務(wù),例如,給自己的客戶提供各種報(bào)表,僅這項(xiàng)業(yè)務(wù)就為企業(yè)創(chuàng)造了百億美元的銷售額。
Hadoop非常復(fù)雜,苗凱翔認(rèn)為,Cloudera的意義是能在中國(guó)把它構(gòu)架起來、跑起來。他希望把Cloudera在金融、電信、零售、制造、政府和醫(yī)療領(lǐng)域的實(shí)踐帶到中國(guó)。
伴隨Cloudera 在中國(guó)落地,其全球性合作伙伴Oracle、HP、DELL、SAS等會(huì)與Cloudera有更多在中國(guó)的合作。同時(shí),它也在找尋本土合作伙伴,像博康智能這樣在一個(gè)細(xì)分市場(chǎng)做得出色的系統(tǒng)集成商。明年第一季度,Cloudera也會(huì)在中國(guó)開展培訓(xùn)業(yè)務(wù)。目前,苗凱翔團(tuán)隊(duì)在與中國(guó)客戶溝通,探討Cloudera在中國(guó)的商業(yè)模式。
未來之路
近些年,Doug Cutting一直推進(jìn)Hadoop在企業(yè)級(jí)市場(chǎng)的實(shí)踐。讓他欣慰的是Hadoop在各行業(yè)中開展的實(shí)踐。
讓他印象最深的是一家信用卡公司。之前,這家企業(yè)檢驗(yàn)欺詐行為需要3個(gè)月,當(dāng)它采用Hadoop分析過往5年的交易歷史后,發(fā)現(xiàn)了一個(gè)欺詐模式,這個(gè)模式在多年中會(huì)連續(xù)出現(xiàn)。于是,這家信用卡公司采用了Hadoop技術(shù),不僅節(jié)省了很多成本,效果也非常好。
Doug Cutting也曾拜訪過一家位于亞特蘭大的兒童醫(yī)院。在醫(yī)院的一間急診室中,有幾十個(gè)早產(chǎn)兒。嬰兒身上有很多監(jiān)測(cè)器,醫(yī)護(hù)人員可以通過屏幕來看這些數(shù)據(jù)。一開始,這些數(shù)據(jù)隨時(shí)就被扔掉了。后來,人們把數(shù)據(jù)從那些老式電腦中取出來,存儲(chǔ)起來并進(jìn)行分析。他們發(fā)現(xiàn),為了檢測(cè)孩子的身體狀況,護(hù)士每天都要在孩子腳底扎針取血,一開始孩子們會(huì)哭,過了幾天他們就不哭了。可是,當(dāng)人們看到這些數(shù)據(jù)時(shí)會(huì)發(fā)現(xiàn),實(shí)際上,在扎針取血后30分鐘內(nèi),嬰兒的心跳和呼吸都特別快,他們非常緊張,這對(duì)他們的健康不利。這幫助醫(yī)護(hù)人員了解了很多情況,并改進(jìn)了他們對(duì)嬰兒的護(hù)理。
“我們看到越來越多的行業(yè),正在利用大數(shù)據(jù)分析來提升業(yè)績(jī)。”Doug Cutting說,“這些企業(yè)并不僅局限于高科技產(chǎn)業(yè),它們還來自其他行業(yè),比如采礦業(yè)、交通業(yè)。”
目前,大企業(yè)是最早采用大數(shù)據(jù)分析平臺(tái)的,Doug Cutting觀察到,這些企業(yè)通常是從個(gè)別部門開始使用Hadoop,然后擴(kuò)展到其他部門。Doug Cutting認(rèn)為,未來會(huì)有越來越多的中小企業(yè)使用Hadoop。在美國(guó),一些小型農(nóng)場(chǎng)主甚至農(nóng)民,現(xiàn)在也是大數(shù)據(jù)的生產(chǎn)者——他們有GPS定位設(shè)備,他們的拖拉機(jī)和其他機(jī)械設(shè)備也收集了大量數(shù)據(jù),通過這些數(shù)據(jù)可以更好地分析土壤狀況,提高播種效率和產(chǎn)量。
“我們看到這個(gè)趨勢(shì)正在在很多行業(yè)不斷蔓延開來。” Doug Cutting說,“一些規(guī)模更小的公司,也將在接下來的5~10年中越來越多地去使用大數(shù)據(jù)。”
Doug Cutting還提到一個(gè)業(yè)界認(rèn)同的大趨勢(shì)——企業(yè)會(huì)越來越多地使用數(shù)據(jù)中心,把數(shù)據(jù)中心作為自己的“默認(rèn)平臺(tái)”,使用上面不同的應(yīng)用程序。“智能手機(jī)既是手機(jī),也是照相機(jī)、游戲機(jī)、電子書……因?yàn)樗驮谀莾?,你知道怎么使用它,而且它上面也集成了所有的生活工具?rdquo; Doug Cutting 說,“未來企業(yè)數(shù)據(jù)中心的作用也類似,所有的工具都集成在上面,企業(yè)可以選擇使用。”