由科技部和上海市人民政府共同主辦的2014浦江創(chuàng)新論壇10月25日在上海開幕。牛津大學教授維克托。邁爾·舍恩伯格教授出席會議并發(fā)言。
下為發(fā)言實錄:
維克托·邁爾·舍恩伯格:女士們、先生們,組委會要求我談大數(shù)據(jù),當我們談大數(shù)據(jù)以及創(chuàng)新的背景時候,我們追溯一下歷史,僅僅不到100年之前,亨利福特當時開始催生了當時的福特車型,啟動了汽車的大眾生產的新時代,不但改變了汽車制造業(yè),改變了經濟,同時也改變了整個社會,改變了我們對距離的感受感覺,改變我們對時空的感受,100年不到我們之前有亨利福特以及他的福特車型,而現(xiàn)在我們有蘋果表、蘋果手表即將上市,在這樣的背景下談創(chuàng)新它的定義如何定義?在座有些人也許會說這很顯然,福特車型主要是與大眾生產有關,批量生產就某一個車型進行最低成本的批量型生產,亨利福特自己本人就說你可以在任何一種顏色的情況下,來買我的車只要它是黑色,我們在快進到現(xiàn)在的時代,蘋果手表將會有上千種不同的配置,而且以低成本進行生產,我們還可以升單純是大眾生產,還可以進行個性化大眾生產,個性化大眾生產成為現(xiàn)代化的標志,現(xiàn)在說到創(chuàng)新,我們看到是從大眾車型生產到個性化大眾生產的時代,我們對本身的想法進行否定了,他談了什么有關?他是與我們不是說看時間的功能,而實際上更好的對世界上發(fā)生的事情數(shù)據(jù)技術分析和理解,我們解釋一下在人類發(fā)展當中通過理解和觀察做到,并且通過觀察捕捉信息從而加深理解,而最近我們開始談及小數(shù)據(jù),因為收集和分析以及儲備以及再使用數(shù)據(jù)成本非常高昂而耗費時間。所以我們需要能夠在一個非常既定的目標情況下完成,并且丟棄。而現(xiàn)在我們看到要理解世界的方式和方法,是基于或者說是驅動于是由于我們對于大數(shù)據(jù)無法正確理解而驅動的,而這樣的背景正在變化。
我們收集分析儲蓄再改變數(shù)據(jù)分析的過程,是改變了我們對世界進行理解的方式,我對此作為小小的解釋,在2000年時候,斯龍的數(shù)據(jù)調查,可以是在數(shù)軸里面進行收集的數(shù)據(jù),督促了天文史上面所收集還要多,在過去兩年里面收到了200個TB儲備數(shù)據(jù),在新的2015年將出來的天文望遠鏡收集的數(shù)據(jù)量達到200TB,每五天收集數(shù)量達到200TB,所以現(xiàn)在面臨數(shù)據(jù)爆炸的概念,這樣的數(shù)據(jù)爆炸是在1989年左右,1986年開始,到2010年只花了20年時間,而在全球數(shù)據(jù)的數(shù)量增長了100倍,20年時間里數(shù)據(jù)增長了100倍,如果我們再次回到人類的發(fā)展史上再次我們看到數(shù)據(jù)的爆炸性的增長,是1450-1506年之間,在這個時間里面我們世界的數(shù)據(jù)是翻倍了,但是現(xiàn)在在過去的20年里面我們的數(shù)據(jù)確實漲了100倍,這僅僅是故事的一半,另一半是圖表顏色顯示,深色區(qū)域是數(shù)碼數(shù)字,而我們的淺色區(qū)域是模擬數(shù)據(jù),在2000年時候可以看到這就是我們的白色的垂直線區(qū)域里面,在2000年不是太早之前,四分之三世界的數(shù)據(jù)都還是屬于模擬數(shù)據(jù),但是現(xiàn)在僅僅是在不到1%,就是15年里面我們已經從模擬世界進展到了數(shù)碼世界或者數(shù)字世界,為什么是這樣?因為數(shù)量能夠轉化為質量,含沙射影,我們拍數(shù)碼照片,每一秒鐘一個人騎馬的照片,如果拍20張照片,突然看到數(shù)量的改變帶來新的質量的飛躍,這就是我們看到我們對現(xiàn)實的新的觀察和體驗,這就是我們數(shù)據(jù)所帶來的改變,當我們的信息的數(shù)量增長可以帶來我們對世界洞察力新的變革。
說到更多我們有著更多的數(shù)據(jù),而這些數(shù)據(jù)與之相關的問題正是我們觀察世界的出發(fā)點所在,也就是說讓數(shù)據(jù)說話,讓數(shù)據(jù)來幫助我們看世界,讓數(shù)據(jù)幫助我們更好理解世界,我們再次用拍照片作為例子,如果我要拍照片,請大家笑我要拍照片了,然后我要選擇,我到底把焦點聚集在萬鋼先生身上,很遺憾坐在后面的部長先生圖像模糊了,所以這個時候我的朋友戴維不再成為我的照片焦點所在,他的圖像變得模糊,因為我照片數(shù)據(jù)重心不在他的臉上,所以在拍照的時候必須做焦點的選擇,哪些對我來說是重要作為焦點,而不重要變?yōu)槟:谋尘埃@個時候我們會知道在數(shù)據(jù)時代什么對我們更重要?我們再來看看照片,這是一個刷牙的照片,可以看到牙刷是我的焦點,而背景模糊的是我4歲的孩子,我能不能改變?這個照片不是使用普通的相機拍攝的,是使用大數(shù)據(jù)相機拍攝的,是把所有的焦點重心捕捉起來,在我拍完照片之后下一張照片以我的兒子為中心的照片,所以我可以自己選擇任何一個成為焦點的對象,在使用這樣的照相機,這就是大數(shù)據(jù)照相機優(yōu)點所在和它的力量所在。可以讓數(shù)據(jù)說話了,結果就是你可以尋找那些模式,它把我們的數(shù)據(jù)相互不關聯(lián)的數(shù)據(jù)結合起來,所以通過分析這些數(shù)據(jù)之間的關系和關聯(lián),你可以找出一個事件的因果關系。
當然這個聽上去已經很不錯了,現(xiàn)在跟大家分享一個故事,這是我們俄羅斯朋友喜歡的一個故事,在上世紀50年代的時候,美國國防部他們收集了很多的樹葉來自于蘇聯(lián)內部的文件信息,通過間諜或者其他資源收集到了內部信息,斯諾已經不是新事件了,他們把收集到的信息翻譯成英語,他們問科學家能不能幫忙?他們有軟件進行翻譯,從俄語翻成英語,他們會教授計算機為什么這個俄羅斯語被翻成英語?三個月之內我們完成的翻譯任務,我們答應了說現(xiàn)在開始了,15年以及10億美金花進去了,但是最后我們的結論是我們的翻譯是失敗的,在機器翻譯之后并沒有發(fā)生持續(xù)性變革,IBM[微博]在加拿大有不同的概念和想法,他們說我們不需要高速計算機,我們需要做僅僅是告訴計算機這個語言被翻譯成另外一個語言的字,我們做統(tǒng)計性可能性分析,我們需要培訓性材料,我們把加拿大的一個字放到計算機數(shù)據(jù)庫之中,這樣我們計算機并不知道為什么被翻成某一個語言中某個字,遵循的工作機制僅僅是基于統(tǒng)計概率來研究,在這個領域他們犯了一個很大的錯誤,就是他們說現(xiàn)在取得成功,提升了我們的算法,實際上并沒有取得成功,10年之后一個新創(chuàng)業(yè)的公司,一家在加州的公司他們說有更好的想法,他是來自于德國朋友到了加州說,我們會利用世界上英特網作為基礎,創(chuàng)建統(tǒng)計性、或然性,因此歐盟的網站信息或者是跨國公司和組織的信息在網絡上的信息被成為翻譯的基礎。這樣的結果比以前所有的機器翻譯的研究都更加出色。所以現(xiàn)在雖然說起來我們的計算機翻譯結果,比如谷歌[微博]翻譯不是那么盡如人意,但是已經比過去好很多了。
不知道這個字翻譯成那個字,只知道統(tǒng)計庫中間某個字被翻譯成的幾率有多高,因此是大數(shù)據(jù)給現(xiàn)實生活帶來的改變,我們只要看看電子商務如何改變了我們的市場營銷?改變生活的方方面面,從此看到社會帶來的變化,人體的健康領域,我們知道人體都是非常脆弱的,比如早產的孩子,早產的嬰兒,他們夭折的可能性是很高的,因為經常我們看到這些早產兒感染的時候已經太晚了,有一位博士會說到大數(shù)據(jù)能夠幫忙,他把數(shù)字傳感器放到了嬰兒身上,然后收集那些與他的生命體征非常相關的關鍵信息,包括他的血壓、包括他的心跳數(shù)量,大概在一秒鐘內傳遞1200多相關的數(shù)據(jù),可以累積為假以時日,他們開始尋找這些數(shù)據(jù)所帶來的模式和規(guī)律,通過這些模式和規(guī)律來預測這個小孩未來可能遭遇到的感染,并且與之相關的疾病,這可以幫助我們醫(yī)護人員給早產兒更好的醫(yī)療護理。在這樣的創(chuàng)新里面有非常多的價值,但是最重要對我們來說可以看到在過去的數(shù)據(jù)價值,已經全部被用完了,過去我們會把這些數(shù)據(jù)收集起來來用,知道這個數(shù)據(jù)是為了什么收集起來的?我們根據(jù)用處用它,用完了以后把數(shù)據(jù)丟掉,但是現(xiàn)在不是這樣了,我們要把數(shù)據(jù)重復的使用,一遍遍使用,像一個冰山,數(shù)據(jù)重要的價值在冰山下面,海水下我們看不見的地方,所以我們對數(shù)據(jù)一定要一遍一遍重復使用,因為我們看到冰山上小角落,我們看看美國西雅圖創(chuàng)投公司,那個公司做的是幫助人們預防交通堵塞,上班的路上或者下班的路上預防交通堵塞,他們有應用給大家一個地圖,稱之為熱圖,哪里是交通堵塞比較厲害的地方顯示不同的顏色,每天都有1億人在用這個應用,這個數(shù)據(jù)哪里來?每一個智能手機上的用戶一個傳感器,當你在行走或者開車智能手機把數(shù)據(jù)傳輸出去了,看你在哪條路上等等,這些數(shù)據(jù)可以進行重用,公共部門利用這些數(shù)據(jù)更好了解公共交通的情況,包括公共交通的流量,因為現(xiàn)在的交通流量已經變得比過去更多,比如在倫敦,倫敦的地鐵的系統(tǒng)過去的一些系統(tǒng)太老舊,不能再用了,我們有一條新的方法,這是一套測量工具追蹤走路的情況和睡眠等等情況,里面得到的數(shù)據(jù)可以進行數(shù)據(jù)的重用,比如在美國我們有一個夏季的地震,所以我們可以測量地震的強度,比如說這個圖表可以看到有多少人在晚上突然醒來,因為地面在抖動,在這個地區(qū)里面有多少人晚上被驚醒,睡眠的數(shù)據(jù)可以測量地震的級別,這就是現(xiàn)在對數(shù)據(jù)使用的程度。
這個公司不僅僅是汽車公司,也是最大的飛機引擎的公司,很長時間內都是為飛機提供引擎的,比如說為空客380提供引擎,他們在里面有很多傳感器記錄振動,熱力等等,所有的數(shù)據(jù)交聯(lián)一起,本來收集這些數(shù)據(jù)用好之后丟失了,不用了,現(xiàn)在他們說我們把這些數(shù)據(jù)重新使用,用這些數(shù)據(jù)預測比如說引擎里面哪一個零部件即將產生故障,預測哪里出現(xiàn)問題可以提早進行維修和替換,所以這個公司把很多業(yè)務轉成了服務的事業(yè),所以他們在服務創(chuàng)收方面占到所有的營收額17%了,這就是這個公司非常好的例子,有很多人看到這張圖可能說從大變得更大的過程,比如說谷歌、蘋果、阿里巴巴[微博],大公司變得更大,可能從某些角度來說對的,但是可以看到大數(shù)據(jù)經常被很小的公司使用,包括創(chuàng)投企業(yè)只有幾個人的創(chuàng)投企業(yè),比如一個電腦科學家,建立的公司多林格公司,是智能手機應用,幫助學習外語,多林格把所有的數(shù)據(jù)收集起來,他們發(fā)現(xiàn)我們經常學習英語用不好的方法學,比如西班牙學習英語方法與中國人學習方法不一樣,多林格收集了所有學習外語的人,他們用到了云計算服務,不需要很高成本,不需要建設生產制造商基地,不需要建立工廠,也不需要建立谷歌數(shù)據(jù)庫這么大規(guī)模數(shù)據(jù)庫,所以現(xiàn)在世界里物理的規(guī)模已經不是那么重要了,重要的是要有能力收集數(shù)據(jù),有能力分析數(shù)據(jù),從數(shù)據(jù)當中得出點子。熊彼德講過這樣的例子。
政策必須建立好政策框架建立起信心,美國政府在過去12月里面做得并不是很好,我們怎么樣重振信心?是至關重要,我們的公民不相信說政府、公司有責任使用數(shù)據(jù),這些用戶不愿意提供他們的數(shù)據(jù),所以我們必須要建立起信心信任,通過立法規(guī)條讓用戶建立起信任才能把數(shù)據(jù)提供,不僅如此,政府也會認為可以讓社會有更多的洞察力,從這些數(shù)據(jù)中得到洞察力,這樣他們更愿意提供數(shù)據(jù),所以講的是開放的數(shù)據(jù),開放源的數(shù)據(jù)10年前開始了,當時希望提升公共的討論,但是現(xiàn)在已經有了新的職責,可以成為經濟發(fā)展好的支柱也可以支撐大數(shù)據(jù)行業(yè)。
最后講一下一個問題,下一步該是怎么樣的?下一個趨勢是什么樣的?有了大數(shù)據(jù)之后在未來我們肯定能夠學的更多,我們也會變得更健康,壽命會延長,汽車自己會開不需要司機,但是大數(shù)據(jù)顯而易見也有限制,所以在下一步里面我們一定要非常當心,以一種非常審慎的過程很好掌握大數(shù)據(jù)技術,非常重要的一點我們一定從大數(shù)據(jù)當中進行不斷的學習,另外我們也應該專注于對人們有益的領域,有的時候數(shù)據(jù)可能不會告訴我們哪些是對于我們人特別重要的地方,但是這就是人和電腦之間的差異,我們必須要了解,因為我們是作為人,我們可以更好理解世界,我們有理解的能力,所以我們也要變得更加謙遜,謙遜是非常好的特質,因為我們知道數(shù)據(jù)只是對于一個事實的體現(xiàn),數(shù)據(jù)經常是不完整的,也經常是不完美的,所以我們必須要做大數(shù)據(jù)的分析,在未來要做更多的大數(shù)據(jù)分析,不僅僅是謙遜的態(tài)度去做,而且要以人性化態(tài)度分析大數(shù)據(jù)。