在國外,大數(shù)據(jù)在農(nóng)業(yè)研究、金融市場、氣象預(yù)報(bào)、交通管理、新聞報(bào)道等方面已經(jīng)應(yīng)用得很廣泛。大數(shù)據(jù)會怎樣改變我們的生活?大數(shù)據(jù)距離普通個體到底有多遠(yuǎn)?大數(shù)據(jù)作為新興產(chǎn)業(yè)應(yīng)如何科學(xué)理性發(fā)展?
用當(dāng)下工具處理不了的數(shù)據(jù)就是大數(shù)據(jù)
大數(shù)據(jù)是今天才有的嗎?對此,工業(yè)和信息化部電信研究院互聯(lián)網(wǎng)中心主任何寶宏告訴大家,大數(shù)據(jù)不是今天出現(xiàn)的,而是當(dāng)一個時代的人無法用那個時代的工具來處理的數(shù)據(jù),就可以稱為大數(shù)據(jù)。所以,現(xiàn)在的大數(shù)據(jù),就是現(xiàn)代人用現(xiàn)代工具處理不了的數(shù)據(jù)。
人口普查,就是一個海量的數(shù)據(jù)。美國人口普查10年一次,1880年的人口普查用了8年,1890年大概用了13年時間。何寶宏說,任何一次挑戰(zhàn),都會導(dǎo)致一次新的技術(shù)革命。自從有人發(fā)明了穿孔卡片制表機(jī),美國人口普查用一年時間就完成了。是人口普查催生了現(xiàn)代信息產(chǎn)業(yè)的誕生,也就是計(jì)算機(jī)的誕生。
早期是人口的大數(shù)據(jù),后來又發(fā)明了用數(shù)據(jù)來表示長度、重量、體積和面積,現(xiàn)在計(jì)算機(jī)用非常精確的數(shù)據(jù)表示不同的顏色,以及電流、電壓、聲音、圖像。何寶宏分析認(rèn)為,準(zhǔn)確地用數(shù)據(jù)或大數(shù)據(jù)方式描述醫(yī)學(xué)或者描述遺傳學(xué)的,很可能會獲諾貝爾獎。事實(shí)上,去年的諾貝爾化學(xué)獎獲得者就做了大數(shù)據(jù)分析。
人際關(guān)系也能用數(shù)據(jù)來表達(dá)
何寶宏說,今天我們的社交網(wǎng)絡(luò),像QQ、微信,實(shí)際上就是一種將人類關(guān)系數(shù)據(jù)化的過程。幾年前大家恐怕還難以想象人際關(guān)系怎么能用數(shù)據(jù)來表示,而現(xiàn)在卻已經(jīng)做到了。在外國互聯(lián)網(wǎng)最早開始時,我們是被動地將自己的數(shù)據(jù)留在互聯(lián)網(wǎng)上讓大家處理分析;微博、微信時代,我們開始主動往互聯(lián)網(wǎng)上輸送信息,特別是在移動互聯(lián)網(wǎng)時代,隨時隨地都在產(chǎn)生數(shù)據(jù);而到了云計(jì)算時代,不僅是隨時隨地產(chǎn)生數(shù)據(jù),人們還希望把整個硬盤上的數(shù)據(jù)都搬到云計(jì)算上分析處理,作為大數(shù)據(jù)的組成部分。
為什么今天大數(shù)據(jù)那么熱?何寶宏認(rèn)為,首先是我們確實(shí)獲取數(shù)據(jù)的渠道太多了,像物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、基因、量子力學(xué)等等,都是在用數(shù)據(jù)描述世界,采集數(shù)據(jù)的工具越來越多樣化;其次是云計(jì)算的興起,云計(jì)算時代可以廉價(jià)、高效地處理大數(shù)據(jù)。但他說,如果沒有辦法用經(jīng)濟(jì)有效的方式去處理大數(shù)據(jù),數(shù)據(jù)就沒有用。
大數(shù)據(jù)帶來了生活方式的轉(zhuǎn)變
何寶宏說,大數(shù)據(jù)還給我們帶來了生活習(xí)慣和方式的轉(zhuǎn)變。譬如營銷,目前大數(shù)據(jù)最成熟的應(yīng)用是互聯(lián)網(wǎng)廣告營銷,公眾在搜索或者瀏覽網(wǎng)頁時推出的廣告越來越精確。傳統(tǒng)媒體的廣告支撐主要是靠拍賣,而互聯(lián)網(wǎng)廣告已經(jīng)進(jìn)展到了一個新的時代,是實(shí)時競價(jià)——某個人在瀏覽某個網(wǎng)頁時廣告是自動、動態(tài)生成的,哪個人愿意投廣告,多少人投標(biāo),基本上可以分析出這個人的性格特征,所有的東西都是在一秒鐘之內(nèi)完成的。而現(xiàn)在的傳統(tǒng)媒體投廣告,沒有幾個月時間是難以實(shí)現(xiàn)的。
還有銀行。金融業(yè)本身就是數(shù)據(jù)的行業(yè),去年互聯(lián)網(wǎng)金融非常熱,根基就是由于大數(shù)據(jù)技術(shù)的來臨。比如,在互聯(lián)網(wǎng)上記錄每一筆交易的單筆成本是2元,而傳統(tǒng)銀行放一筆貸款大概需要800元~2000元的費(fèi)用,所以廣大中小企業(yè)都變成了互聯(lián)網(wǎng)金融的客戶。
大數(shù)據(jù)的作用還體現(xiàn)在能夠引導(dǎo)公眾的行為方式,甚至影響思想意識。最重要的是,大數(shù)據(jù)不但可以運(yùn)用互聯(lián)網(wǎng)發(fā)展,還可以運(yùn)用物聯(lián)網(wǎng)發(fā)展。物聯(lián)網(wǎng)典型的就是智慧城市發(fā)展中利用大數(shù)據(jù)來發(fā)展智慧城市,而智慧城市最重要的是提高政府對城市的管理水平和服務(wù)水平。大數(shù)據(jù)可以運(yùn)用到社會的方方面面,軍事、政治、社會管理、醫(yī)療、交通、物流、金融服務(wù)、消費(fèi)、食品安全、環(huán)境、氣象。比如,智慧醫(yī)療就可以在大數(shù)據(jù)的幫助下實(shí)現(xiàn)。比如,心臟病患者平時做心電圖時,醫(yī)生花幾十秒的時間隨便一看可能看不出啥問題,因?yàn)闆]有歷史數(shù)據(jù)無法進(jìn)行分析?,F(xiàn)在有了大數(shù)據(jù),就可以對累計(jì)數(shù)據(jù)進(jìn)行分析,用遠(yuǎn)程實(shí)時監(jiān)測、預(yù)測心臟病發(fā)生的幾率并做出預(yù)判處理。
推動大數(shù)據(jù)的動力是人類對分析世界的渴望
既然大數(shù)據(jù)這么重要,那么推動大數(shù)據(jù)的動力是什么?張新生認(rèn)為,核心動力是人類對測量記錄和分析世界的渴望。他說,互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計(jì)算的快速發(fā)展,使人類測量、記錄和分析世界成為可能。
今天是信息爆炸時代。張新生說,信息爆炸時代如果不利用大數(shù)據(jù),或者沒有手段利用,我們就會被信息淹死。好在今天有了云技術(shù),可以對所有的數(shù)據(jù)進(jìn)行存儲、記錄、測量、分析。云技術(shù)的出現(xiàn),使人類測量、記錄和分析世界成為可能。
而在過去我們認(rèn)識的物理世界里,在分析時要做大量的實(shí)證性工作,比如做問卷、訪談,得到一小部分樣本進(jìn)行分析、計(jì)算,最后得出結(jié)論。在那種條件下,認(rèn)識整個世界太慢、太復(fù)雜了,但今天所有的東西都在網(wǎng)絡(luò)中,都在大的云計(jì)算平臺里,可以在網(wǎng)絡(luò)上精確地再現(xiàn)現(xiàn)實(shí)世界全貌的模型——如同有人所說,今天我們可以把現(xiàn)實(shí)世界用投影儀投在幕布上。
有能力,就可以從大量的信息中提取有用的數(shù)據(jù),獲取價(jià)值,但如果沒有能力,就會被大數(shù)據(jù)淹死。張新生說,通過先進(jìn)技術(shù)從海量的信息中挖掘出有質(zhì)量、有價(jià)值的數(shù)據(jù),并且使大量有價(jià)值的數(shù)據(jù)轉(zhuǎn)化成知識,是大數(shù)據(jù)今天要解決的關(guān)鍵問題。
大數(shù)據(jù)是我們大家貢獻(xiàn)出來的
大數(shù)據(jù)是從哪兒來的?唐雄燕說,其實(shí)是我們大家貢獻(xiàn)出來的。比如,平時有些隱私的話可能不會跟家里人說,但告訴百度了;上網(wǎng)搜什么東西,百度知道;社交關(guān)系誰掌握,所用的微信和QQ會掌握;購物愛好和習(xí)慣,淘寶網(wǎng)、京東網(wǎng)知道;通話和上網(wǎng)記錄,三個運(yùn)營商可能有;身份、家庭和房產(chǎn)信息,政府那里有;在哪里刷了信用卡,銀行知道;現(xiàn)在人在哪兒,你的手機(jī)可能掌握。
要在數(shù)據(jù)里找出有價(jià)值的東西來,這就是大數(shù)據(jù)技術(shù)的核心,迅速完成數(shù)據(jù)價(jià)值的提純。比如,監(jiān)控了你一整天,可能真正有用的數(shù)據(jù),就是在一兩秒鐘內(nèi)發(fā)現(xiàn)你干了壞事。這是如何找出來的?這就是數(shù)據(jù)挖掘技術(shù)的關(guān)鍵。通過大數(shù)據(jù)應(yīng)用可達(dá)到什么目的?唐雄燕認(rèn)為,對我們的管理來說實(shí)現(xiàn)了更高效的管理,對商業(yè)來說實(shí)現(xiàn)了更精確的營銷,對于社會很多事件的發(fā)生,或者是環(huán)境的預(yù)測來說,則提供了更及時的預(yù)測,以及更優(yōu)質(zhì)的服務(wù)。比如,谷歌通過對搜索的分析判斷流感的趨勢,和美國疾控中心的數(shù)據(jù)完全是一致的,而且速度更快。
大數(shù)據(jù)應(yīng)用靠技術(shù)來支撐
大數(shù)據(jù)到底是一種現(xiàn)象還是一種技術(shù)?百度公司發(fā)展研究中心副主任率鵬認(rèn)為,沒有技術(shù)支撐的大數(shù)據(jù)是沒有辦法應(yīng)用起來的。
比如,在“百度知心”上搜索“劉德華”,除了在屏幕左側(cè)展現(xiàn)劉德華的基本信息,還同時在右側(cè)展現(xiàn)用戶在訪問“劉德華”信息過程中可能會感興趣的其他資料——代表作、家庭情況、個人生活信息,甚至目前和他關(guān)系緊密的一些其他藝人的資料。這樣一些信息,恰恰是對于用戶在百度上對劉德華大量的搜索行為總結(jié)和歸納的基礎(chǔ)上,才把知心的信息歸納并且展現(xiàn)出來的。
搜索“紫色的小花”,百度就會給出很多類似的花卉,并且一定是紫色的,同時這個花一定不大。這樣的搜索結(jié)果,也都是通過對于大數(shù)據(jù)的歸納和處理總結(jié)出來的。還有“PK大咖”——拍一張自己的照片,百度就能告訴你哪個明星和你長得最像,相似度有多少。
“百度翻譯”,則是通過大數(shù)據(jù)和學(xué)習(xí)的技術(shù),上線了24種語言不同的翻譯工具,其中有12種是整個百度翻譯團(tuán)隊(duì)都沒有人懂的。率鵬說,在完全不了解、不懂得、不理解這種語言的情況下,正是大數(shù)據(jù)技術(shù)的支撐,開發(fā)出了這個在行業(yè)中質(zhì)量非常領(lǐng)先的翻譯工具。
大數(shù)據(jù)對隱私保護(hù)提出了挑戰(zhàn)
大數(shù)據(jù)的應(yīng)用,會讓人們在上網(wǎng)、刷卡時把自己的信息暴露出來,因而就產(chǎn)生了關(guān)于隱私保護(hù)的問題。大公司對于用戶隱私的保護(hù)是非常嚴(yán)格的,包括最近國內(nèi)的10家公共云服務(wù)企業(yè)做了內(nèi)部評測,它們是可信和有保障的。
但他也指出,對于政策制定來說,原來對用戶的隱私保護(hù)更多側(cè)重于隱私本身是什么,如個人的名字、電話號碼、銀行賬號等。而大數(shù)據(jù)時代除了保護(hù)這些信息,需要一些新的思路和方法,如果只是保護(hù)用戶信息的采集環(huán)節(jié),在大數(shù)據(jù)時代就是不完整的,因?yàn)榭傆幸恍┢渌畔⒛軌蚍治龀鲇行┥婕坝脩綦[私的信息。就是說企業(yè)掌握這個數(shù)據(jù),或者掌握這些分析是允許的,但法律要禁止的是拿這些數(shù)據(jù)不能做什么。他認(rèn)為,大數(shù)據(jù)時代對隱私保護(hù)提出了新的挑戰(zhàn)。
大企業(yè)在隱私的保護(hù)上相對會有比較完善的手段,也不敢輕易去作惡,如果要作惡的話,代價(jià)是非常大的。但一些小的企業(yè),就比較容易出問題了。隨著大數(shù)據(jù)的發(fā)展,將來騙子在互聯(lián)網(wǎng)上也是透明的,如果有不良行為,很快就可以被抓住。有了大數(shù)據(jù),反而能增強(qiáng)信息的安全。
率鵬則認(rèn)為,首先是國家有相關(guān)的法律進(jìn)行保護(hù)和約束。在隱私問題上,他重點(diǎn)強(qiáng)調(diào)了兩個概念:一是符號化,二是用戶特征。所謂符號化,就是當(dāng)去識別一個用戶的時候,實(shí)際上是用和他的真實(shí)信息不相關(guān)的符號標(biāo)記這個用戶,這個符號是通過算法來保證的,使你下一次登陸時依然能夠識別出和上一次登陸是同一個用戶,但是從技術(shù)上,卻沒有辦法通過這個符號反推出這個人在真實(shí)生活中的姓名、電話和住址,這些信息和這個符號都是沒有辦法關(guān)聯(lián)起來的,是單向的識別,而不是在網(wǎng)絡(luò)上肖像和真實(shí)身份掛接起來。這就使得基本享受了大數(shù)據(jù)帶來的優(yōu)勢,同時又規(guī)避了信息安全的風(fēng)險(xiǎn)。
所謂用戶特征,則意味著在大數(shù)據(jù)時代,企業(yè)感興趣的往往是這個用戶的特征,而不是家庭地址、電話號碼那些敏感的信息。如果在數(shù)據(jù)使用過程中嚴(yán)格遵循這些原則的話,就能夠規(guī)避風(fēng)險(xiǎn)。率鵬特別提到,有些用戶會把照片發(fā)到微博上,或者把真實(shí)的履歷信息以一種公開的形式放在互聯(lián)網(wǎng)上。他認(rèn)為,在大數(shù)據(jù)時代,迫切需要向用戶加強(qiáng)對于保護(hù)個人信息意識的教育,即安全上網(wǎng)的教育。