近來,大數(shù)據(jù)被炒得熱得發(fā)“燙”,只要和數(shù)據(jù)有關(guān)的事情全部都被冠以了“大數(shù)據(jù)”之名。從目前在中國開展大數(shù)據(jù)服務(wù)的情況來看,投身其中最積極、見效最快的是互聯(lián)網(wǎng)公司,尤其是BAT,因為互聯(lián)網(wǎng)服務(wù)提供商擁有龐大的數(shù)據(jù),是天然的大數(shù)據(jù)服務(wù)提供商。從大數(shù)據(jù)應(yīng)用來看,精準營銷是目前用得最多也是最成功的大數(shù)據(jù)服務(wù)。但應(yīng)該說我們今天所看到的僅僅是大數(shù)據(jù)應(yīng)用這個汪洋大海中的冰山一角,甚至可以說是滄海一粟,我們要打開大數(shù)據(jù)應(yīng)用的大門,讓大數(shù)據(jù)真正成為我們經(jīng)濟社會轉(zhuǎn)型升級的“石油”,需要各界機構(gòu)勇敢地聯(lián)姻ICT公司,需要大家跨界融合。
眼下,最值得關(guān)注的事情,是各種與大數(shù)據(jù)相關(guān)的聯(lián)合實驗室的建立。不久前百度與聯(lián)合國開發(fā)署建立了大數(shù)據(jù)聯(lián)合實驗室,研究的領(lǐng)域是環(huán)保健康,未來還會拓展到教育和災(zāi)害管理等。首個項目是設(shè)立“百度回收站”應(yīng)用,讓用戶手機一拍廢舊電器,就能夠顯示電子垃圾類別和回收價格,用戶填寫準確信息,就會有回收廠商進行聯(lián)系,破解電子垃圾回收難的問題。也是在最近,北京市環(huán)境保護科學(xué)研究院與IBM建立了聯(lián)合實驗室,目標是利用認知計算、大數(shù)據(jù)分析、物聯(lián)網(wǎng)等相關(guān)技術(shù),助力北京市加速霧霾治理。同樣是在最近,浪潮集團與交通運輸部公路科學(xué)院建立“現(xiàn)代物流大數(shù)據(jù)應(yīng)用實驗室”,目標是運用大數(shù)據(jù)加速物流的智能化轉(zhuǎn)型。還是在不久前,電子科技大學(xué)與朗瑪信息公司建立醫(yī)療大數(shù)據(jù)聯(lián)合實驗室,目標是利用大數(shù)據(jù)破解健康難題。如此多大數(shù)據(jù)聯(lián)合實驗室的建立,說明一個重要的事實,即大數(shù)據(jù)利用需要“融合智慧”。大數(shù)據(jù)之難事實上是難在對數(shù)據(jù)的理解和分析上,如何建立每一個領(lǐng)域的大數(shù)據(jù)分析模型,如何獲得大數(shù)據(jù)的洞察,既需懂“數(shù)學(xué)”又需要懂“行業(yè)”,二者缺一不可,也只有各個行業(yè)與ICT企業(yè)融合才有可能真正找到大數(shù)據(jù)中蘊含的“智慧”。而聯(lián)合實驗室的建立正是孵化“你中有我”、“我中有你”的“融合智慧”最有效的路徑。
大數(shù)據(jù)是一個真正“融合”的產(chǎn)業(yè),無論是傳統(tǒng)產(chǎn)業(yè)還是ICT產(chǎn)業(yè)都需要融合其他領(lǐng)域的智慧。而搶占融合的機會,也是需要趁早行動的,也是需要占位的。也許大家還記得當年阿里巴巴聯(lián)合天弘基金推出“余額寶”的事,就在他們聯(lián)手推出余額寶后不久,各種理財?shù)?ldquo;寶”、各種消費的“白條”紛紛推出,向市場拋出了高回報的理財產(chǎn)品,但是誰也搶不走“余額寶”的頭籌,無論是用戶數(shù)還是資金量或是市場號召力和影響力,都沒能敵過他們,就因為他們是進入市場的第一個。在這個到處是“融合”和“混搭”的移動互聯(lián)時代,你必須成為第一,才能摘得最大的果子,移動互聯(lián)網(wǎng)如此,大數(shù)據(jù)的利用同樣如此。要想搶占某個領(lǐng)域的大數(shù)據(jù)“山頭”,必須動手,現(xiàn)在就要動手。
在剛剛舉行的中國互聯(lián)網(wǎng)大會的大數(shù)據(jù)論壇上,盡管有很多業(yè)內(nèi)人士看到目前中國的大數(shù)據(jù)應(yīng)用,也潑出了很多的涼水,但就和所有的產(chǎn)業(yè)啟動一樣,每一個產(chǎn)業(yè)的開啟一定會遇到各種各樣的問題,用戶接受度、數(shù)據(jù)共享、標準、缺位等等,而這些問題一定是在產(chǎn)業(yè)不斷推進、演進的過程中不斷克服,不斷解決的。只有走出去、邁開步子,才有可能知道路上的絆腳石,先搬哪一塊,用什么方法搬,走一步解決一步,大家一起探索,大家一起推動,才有可能真正迎來大數(shù)據(jù)應(yīng)用的春天。而要擁抱大數(shù)據(jù),推動大數(shù)據(jù)的發(fā)展,現(xiàn)在需要讓ICT與其他各個產(chǎn)業(yè)界都勇敢地擁抱對方,大家一起來“跨界”。
百度大數(shù)據(jù)部總經(jīng)理陶海亮
百度大數(shù)據(jù)應(yīng)用已有很多落地成果
百度已發(fā)布了大數(shù)據(jù)引擎戰(zhàn)略,把百度的大數(shù)據(jù)應(yīng)用技術(shù)能力開放出來,讓各行各業(yè)都可以去使用。
今年4月份,百度發(fā)布了大數(shù)據(jù)引擎戰(zhàn)略,把百度多年來積累的大數(shù)據(jù)應(yīng)用技術(shù)能力開放出來,讓各行各業(yè)都可以去使用。這個大數(shù)據(jù)引擎包括了三個部分,最底層叫做開放云,大家理解為云計算,但是百度的云的規(guī)模更大一些,因為我們有一些獨有的技術(shù)。在開放云上面我們還有數(shù)據(jù)工廠,數(shù)據(jù)工廠是新一代數(shù)據(jù)庫管理的技術(shù),還有挖掘方法。數(shù)據(jù)工廠的上面是百度技術(shù)核心,叫做百度的大腦。百度大腦已經(jīng)達到了非常先進的程度。
今年我們推出了一些大數(shù)據(jù)的應(yīng)用產(chǎn)品。比如旅游預(yù)測。旅游預(yù)測有兩個部分,一個部分叫景點預(yù)測,這是我們跟旅游局和各地的旅游管理機構(gòu)合作,對未來一周,或者是幾天,每一個景點的人流情況進行預(yù)測。另一個是基于我們旅游的數(shù)據(jù)去對道路和城市、旅游的出發(fā)地的預(yù)測,這個預(yù)測結(jié)果對于我們的旅行社和管理部門很有價值。疾病預(yù)測,是6月份上線的,我們從中國疾病控制中心拿到了一些數(shù)據(jù),將這些數(shù)據(jù)跟我們百度的數(shù)據(jù)相結(jié)合,我們可以對全國所有的地級市,以及全國2800個縣區(qū)的多種疾病的發(fā)病態(tài)勢進行預(yù)測。高考預(yù)測,這是我們今年高考之前上線的產(chǎn)品,這個高考預(yù)測產(chǎn)品有很多的內(nèi)容,比如作文高考命題在什么方向,我們給出了六個方向,每個方向給出了三套題,給出了內(nèi)容和范文。百度司南,這是我們基于大數(shù)據(jù)的商業(yè)決策平臺,我們的司南能夠?qū)κ袌鲂袨檫M行評估,對消費者動態(tài)進行洞察,比如我們知道很多的企業(yè)會請代言人,什么樣的代言人跟你產(chǎn)品比較吻合,過去沒有一個很好的基于數(shù)據(jù)的指標。我們的司南這個產(chǎn)品,可以直接給出答案,你的產(chǎn)品跟哪一個代言人比較匹配,如果你是賣“馬自達6”的話可能請吳莫愁和王菲比較合適,請周杰倫不太合適,我們的產(chǎn)品可以數(shù)據(jù)化告訴你營銷應(yīng)該怎么做,客戶是什么樣的,市場格局是什么樣的。
締元信網(wǎng)絡(luò)數(shù)據(jù)CEO秦雯
技術(shù)倫理不解決中國大數(shù)據(jù)永遠有泡沫
大數(shù)據(jù)領(lǐng)域面臨很多問題,包括企業(yè)深受其害的廣告虛假點擊等,這些問題不解決大數(shù)據(jù)永遠有泡沫。
目前大數(shù)據(jù)領(lǐng)域存在認知混亂問題。首先是很多做數(shù)據(jù)中心的公司號稱自己是大數(shù)據(jù)公司,我們知道數(shù)據(jù)中心是所有互聯(lián)網(wǎng)業(yè)務(wù)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,大數(shù)據(jù)只是他要支撐的業(yè)務(wù)的一部分。其次做云計算的,也認為自己是大數(shù)據(jù)公司。云計算是大數(shù)據(jù)的系統(tǒng)基礎(chǔ)設(shè)施,當然海量數(shù)據(jù)的處理,沒有云計算是不可能實現(xiàn)的。但云計算只是大數(shù)據(jù)整個產(chǎn)業(yè)或者說是應(yīng)用的組成部分。但是云計算不等于大數(shù)據(jù)。再者,很多人把大數(shù)據(jù)等同于數(shù)字化信息,并不是所有的數(shù)字化信息一定產(chǎn)生大數(shù)據(jù)。我們認為大數(shù)據(jù)是數(shù)字化信息的生產(chǎn)和被消費的過程數(shù)據(jù)。最后的一個誤區(qū)是認為大數(shù)據(jù)就是海量數(shù)據(jù)。究竟什么是大數(shù)據(jù),我們認為大數(shù)據(jù)是行為環(huán)境的過程記錄數(shù)據(jù)。
大數(shù)據(jù)的發(fā)展有兩個關(guān)鍵都與互聯(lián)網(wǎng)有關(guān)。一個是因為有互聯(lián)網(wǎng),所以我們能搜集到非常細致的數(shù)據(jù)。第二個是互聯(lián)網(wǎng)技術(shù)能夠以非常低的成本采集和使用大數(shù)據(jù)。
數(shù)據(jù)應(yīng)用存在生態(tài)環(huán)境問題,我想講幾個方面,第一個是公共數(shù)據(jù),公關(guān)數(shù)據(jù)涉及幾個層面,一個是用戶隱私,一個是數(shù)據(jù)開放,一個是技術(shù)倫理。我想講一下公共數(shù)據(jù)問題,很多人認為中國政府擁有最多的數(shù)據(jù),但是我們細看其實有很多的問題,首先絕大部分政府在業(yè)務(wù)上的數(shù)據(jù)都是統(tǒng)計數(shù)據(jù)。另外數(shù)據(jù)質(zhì)量有很大的問題,因為中國全社會沒有養(yǎng)成數(shù)據(jù)培育和數(shù)據(jù)管理的習(xí)慣,政府部門也不例外。另外很多數(shù)據(jù)是缺位的,我舉一個例子我相信今天做的互聯(lián)網(wǎng)的相關(guān)業(yè)務(wù)人員都有感觸,中國的IP地址數(shù)和IP地址分布情況,現(xiàn)在市場上流行的是民間整理的,這個事情應(yīng)該由政府來做,并且作為公共數(shù)據(jù)開放出來,這些方面現(xiàn)在是缺失的。技術(shù)的倫理問題,我們知道互聯(lián)網(wǎng)技術(shù)能做很多的事情,而且這樣技術(shù)工作常常是道高一尺,魔高一丈。我們大家都熟悉的,很多企業(yè)身受其害的廣告虛假點擊等問題,給我們帶來的思考是我們的技術(shù)應(yīng)用是不是需要講究商業(yè)道德和倫理,如果這個問題不解決,說實話在中國大數(shù)據(jù)落地永遠是泡沫。
北京航空航天大學(xué)計算機學(xué)院副院長胡春明
大數(shù)據(jù)處理要“3I”
每次講大數(shù)據(jù)的特征我們都講4V,對于大數(shù)據(jù)的處理我們認為也存在三個特征,叫做3I。
大數(shù)據(jù)鏈條中仍然存在一些問題,比如很多人認為多元的大數(shù)據(jù)集就代表了真實的世界,但是實際上是嗎?我們觀察發(fā)現(xiàn)其實在采樣的過程中就有偏差,所以從這個角度講,數(shù)據(jù)是有質(zhì)量的問題。第二個問題是我們講了大數(shù)據(jù)之大,大到我們處理不了,我們應(yīng)該如何來處理大數(shù)據(jù)?在處理的過程中我們需要把大變小,就會要丟掉一部分的數(shù)據(jù),這是第二個面臨的問題。第三個問題是如何從數(shù)據(jù)中尋找知識和預(yù)測。這個預(yù)測的方法比之前的數(shù)據(jù)挖掘更進一步,需要新的統(tǒng)計理論和數(shù)學(xué)工具,新的計算理論和算法、設(shè)計方法,新的大數(shù)據(jù)分布式計算機基礎(chǔ)設(shè)施找到知識和預(yù)測,這是第三個問題。
每次講大數(shù)據(jù)的特征我們都講4V,對于大數(shù)據(jù)的處理我們認為也存在三個特征,叫做3I。第一個I叫做非精確。第一個層面是我們今天做的很多的計算或數(shù)值、術(shù)語不一樣,不需要那么精確,我們往往需要知道的是一個大的方向和態(tài)勢。另一方面是我們面臨的環(huán)境沒有辦法做得那么精確,數(shù)據(jù)在不斷的變化,沒有辦法得到一個穩(wěn)定的視圖,所以沒有辦法嚴格地去做,我們就放松要求,我們在計算里面堅持非精確的一個思路,當然非精確不意味著隨便去做,我們?nèi)匀恍枰幸恍┳罨镜姆?wù)質(zhì)量的保證。需要有一些辦法來避免這個通過非精確來減少計算成本的同時,保證一定的服務(wù)質(zhì)量,這是我們認為的第一個I的特征。第二個I的特征可能和大數(shù)據(jù)里的動態(tài)持續(xù)變化緊密相關(guān)。數(shù)據(jù)因為是持續(xù)變化的,可能新來的數(shù)據(jù)占到過去歷史上所有數(shù)據(jù)的很小比例。如果我們能夠把我們的計算變得增量化,我只是針對新到來的比較小的數(shù)據(jù)塊做計算,然后能把這個計算的結(jié)果融合到已有的計算結(jié)果里面,這樣的話我們就在一定程度上減輕我們講的大數(shù)據(jù)之大的影響。當然這個增量本身依賴一些前提條件,有一些算法或者是問題適合增量處理,有一些算法并不一定適合。所以說從這個角度來講,我們可能要運用一些新的思想和方法來設(shè)計,支持增量的算法,同時我們在分布式的計算系統(tǒng)里面支持這樣一種增量計算的處理的能力,這是我們認為三個I里面的第二個I。第三個I叫做歸納性。大數(shù)據(jù)是多元融合的數(shù)據(jù),這些數(shù)據(jù)代表了現(xiàn)實世界,代表了我們統(tǒng)計學(xué)上所謂的總體。那么從這個角度來講我們往往會有這樣的思想,我們?nèi)绻軌虬褋碜圆煌吹臄?shù)據(jù),及時相互參照,有所發(fā)現(xiàn),就會給我們帶來機會,這是我們利用一種相互的參照來簡化計算,同時能夠解決前面兩個非精確帶來的誤差。這是我們?nèi)藶榈拇髷?shù)據(jù)計算的三個I。