微軟亞洲研究院主管研究員 鄭宇
北大國(guó)家發(fā)展研究院20周年暨BiMBA15周年慶典于2014年4月16-21日北京舉辦。和訊網(wǎng)全程報(bào)道。微軟亞洲研究院主管研究員鄭宇在19日的“大數(shù)據(jù)與互聯(lián)網(wǎng)金融”分論壇上表示,城市變得越來(lái)越繁華,但是也帶來(lái)了很多問(wèn)題,交通擁堵,以及污染。要注意這些問(wèn)題在很多年前幾乎是不可能的,因?yàn)槌鞘械脑O(shè)置太復(fù)雜了,牽一發(fā)而動(dòng)全身。但是現(xiàn)在隨著傳感器技術(shù)的發(fā)展,和大規(guī)模的計(jì)算環(huán)境的成熟,我們又有了很多的大數(shù)據(jù),比如從社交媒體到交通流量,從人的移動(dòng)性到地理,從空氣質(zhì)量到我們的環(huán)境,如果使用得當(dāng)?shù)脑?huà),如果把這些數(shù)據(jù)進(jìn)行很好的分析,我們可以利用這些數(shù)據(jù)發(fā)現(xiàn)問(wèn)題,解決問(wèn)題。
以下為文字實(shí)錄:
鄭宇:非常感謝國(guó)發(fā)院給我這個(gè)機(jī)會(huì),讓大家跟我們分享一下利用大數(shù)據(jù)在城市里做的研究個(gè)應(yīng)用產(chǎn)品。
我們這個(gè)城市變得越來(lái)越繁華,但是也帶來(lái)了很多問(wèn)題,交通擁堵,以及污染。要注意這些問(wèn)題在很多年前幾乎是不可能的,因?yàn)槌鞘械脑O(shè)置太復(fù)雜了,牽一發(fā)而動(dòng)全身。但是現(xiàn)在隨著傳感器技術(shù)的發(fā)展,和大規(guī)模的計(jì)算環(huán)境的成熟,我們又有了很多的大數(shù)據(jù),比如從社交媒體到交通流量,從人的移動(dòng)性到地理,從空氣質(zhì)量到我們的環(huán)境,如果使用得當(dāng)?shù)脑?huà),如果把這些數(shù)據(jù)進(jìn)行很好的分析,我們可以利用這些數(shù)據(jù)發(fā)現(xiàn)問(wèn)題,解決問(wèn)題。
基于這個(gè)場(chǎng)景,我們做了一個(gè)城市計(jì)算的框架和愿景,它包括四個(gè)環(huán)節(jié)。第一,城市感知。二,城市管理,三,城市數(shù)據(jù)的分析和挖掘,四,服務(wù)提供。我們最后達(dá)到一個(gè)城市、人和環(huán)境三盈的局面。我們用大數(shù)據(jù)解決大城市中的大挑戰(zhàn)。
這是一個(gè)多數(shù)據(jù),它的數(shù)據(jù)種類(lèi)非常多,任務(wù)也很多,可以是改進(jìn)城市規(guī)劃,也可以緩解交通擁堵,在一個(gè)任務(wù)中我們要同時(shí)用到多個(gè)數(shù)據(jù)。我們要改善我們的城市規(guī)劃,我們既要看道路結(jié)構(gòu),也要看流量,這要求我們對(duì)數(shù)據(jù)要進(jìn)行整合分析。
城市里面有哪些大數(shù)據(jù)?第一,紅色的是高速公路,藍(lán)色的是房子,如果有這樣的數(shù)據(jù)連續(xù)多年的累計(jì),我們知道這個(gè)城市是朝哪個(gè)方向發(fā)展。
第二興趣點(diǎn)數(shù)據(jù)。這個(gè)圖顯示的是北京市酒吧和電影的圖,黃點(diǎn)是電影院,藍(lán)點(diǎn)是酒吧。里面已經(jīng)有上萬(wàn)個(gè)了。如何有多連接的數(shù)據(jù),我們知道城市里面的有些商業(yè)在衰亡,有些商業(yè)在發(fā)展,商業(yè)模式在變化。北京市電影院的數(shù)目在過(guò)去五年里面持續(xù)增加,現(xiàn)在是260家,越來(lái)越多人愿意去電影院看電影。
空氣質(zhì)量圖,現(xiàn)在中國(guó)政府多么關(guān)心空氣質(zhì)量,美國(guó)政府也很關(guān)心空氣質(zhì)量。
氣象數(shù)據(jù),氣溫、氣壓、濕度,這些數(shù)據(jù)跟我們空氣質(zhì)量是相關(guān)的。
這個(gè)是社交服務(wù),人到底吃飯和出去玩兒的時(shí)候會(huì)標(biāo)注什么時(shí)間在什么地方,他們其實(shí)是大規(guī)模移動(dòng)的。
最后這個(gè)圖是北京市3問(wèn)輛出租車(chē)三個(gè)月GPS所記的熱度,越亮的是密度越高,3個(gè)月的數(shù)據(jù)加在一起,距離是從地球到太陽(yáng)距離的3倍,這只是三個(gè)月的數(shù)據(jù)。而且我們還要說(shuō)我們不只有一組數(shù)據(jù),我們可以用它來(lái)表達(dá)這個(gè)城市里面的人在城市里是怎樣的移動(dòng)。
我們可以做一個(gè)熱度的分析,這兩個(gè)圖是北京在工作日和節(jié)假日到達(dá)區(qū)域人數(shù)的數(shù)據(jù),東部地區(qū),國(guó)貿(mào)附近人是比較多的,我們對(duì)比兩個(gè)圖,同一個(gè)區(qū)域的看看,工作日大家來(lái)市里的概率遠(yuǎn)遠(yuǎn)高于節(jié)假日,這非常容易理解,節(jié)假日大家都外出了。
我們從早年間開(kāi)始基于大規(guī)模出租車(chē)的行車(chē)路線(xiàn)設(shè)計(jì),到利用人的出行數(shù)據(jù)來(lái)發(fā)現(xiàn)我們交通路網(wǎng)中設(shè)計(jì)不合理,或者是不符合需求的設(shè)計(jì)環(huán)境,把它們找出來(lái),建議給我們城市規(guī)劃局,以后作為改進(jìn)目標(biāo)。
2013年有一個(gè)關(guān)于大規(guī)模的出租車(chē)的時(shí)時(shí)動(dòng)態(tài)打車(chē)。第二是關(guān)于空氣質(zhì)量,第三是時(shí)時(shí)感知我們城市的友好(音)。
我們先講一下空氣質(zhì)量,這不是中國(guó)的問(wèn)題,它是一個(gè)全球的問(wèn)題?,F(xiàn)在很多城市都建了一些空氣質(zhì)量監(jiān)測(cè)站,每個(gè)小時(shí)都會(huì)發(fā)布一些數(shù)據(jù),告訴大家這個(gè)地方空氣質(zhì)量是多少。但是非常不幸的是,我們的站點(diǎn)數(shù)目是非常有限的,六環(huán)以?xún)?nèi)22個(gè)站點(diǎn)已經(jīng)是全國(guó)最多了,這個(gè)站點(diǎn)非常貴,不光要花錢(qián),還要占地,但是非常不幸的是,一個(gè)城市里面空氣質(zhì)量是不均勻的。這里面每一個(gè)圖表表示是一個(gè)政府建的站點(diǎn),越大越不小,越小越好。綠的是非常好的,紫的,黑紅色是非常差的。同一時(shí)刻這22個(gè)站點(diǎn)會(huì)差得非常多,因?yàn)樗艿胶芏鄰?fù)雜因素的影響,包括交通流量,空氣的擴(kuò)散條件,以及氣象狀況。這些因素在城市里面分布是怎么樣,并且隨著時(shí)間的變化也是不一樣的。
這是2月份的時(shí)候北京市空氣質(zhì)量有一天從500到50,在一個(gè)晚上,因?yàn)橄掠炅?。它并不是在同一時(shí)間所有的空氣質(zhì)量都變成了50,每個(gè)地方變化也是不一樣的。這就是變化的挑戰(zhàn)。
如果我們有的地方?jīng)]有站點(diǎn),他的空氣質(zhì)量是多少我們并不知道,不能用一個(gè)平均讀數(shù)來(lái)代表整體,也不能通過(guò)簡(jiǎn)單的差值來(lái)算出空氣質(zhì)量。這個(gè)問(wèn)題非常大了。
我們利用兩方面的大數(shù)據(jù),來(lái)做時(shí)時(shí)的細(xì)密度的空氣質(zhì)量更新。第一是基于歷史和時(shí)時(shí)的空氣質(zhì)量數(shù)據(jù)來(lái)進(jìn)行。另外一個(gè)是其他數(shù)據(jù),包括氣象,天氣下雨,還有濕度,氣壓,氣溫等等。第二交通流量數(shù)據(jù)。興趣點(diǎn)數(shù)據(jù),這里有多少公園,密度是多少。最后是道路結(jié)構(gòu)數(shù)據(jù),有多少紅綠燈,多少高速公路。結(jié)合這些數(shù)據(jù)我們就可以把細(xì)密度的空氣質(zhì)量質(zhì)量數(shù)據(jù)拿出來(lái)。經(jīng)過(guò)計(jì)算之后我們可以看到,整個(gè)城市里面每個(gè)角落的空氣質(zhì)量就算出來(lái)了。我們可以知道,比如說(shuō)什么時(shí)候該關(guān)開(kāi)窗戶(hù),什么時(shí)候該關(guān)窗戶(hù),去哪里跑步,線(xiàn)路是什么樣的。政府部門(mén)更加需要這個(gè)信息。我們要治理,我們首先要知道什么地方不好,我們現(xiàn)在的工作正在和環(huán)保局合作。第二步我們還要做因果分析,包括預(yù)測(cè)。這個(gè)服務(wù)已經(jīng)上線(xiàn)了。
它是一個(gè)云加端的,時(shí)時(shí)的分析,把空氣質(zhì)量的信息提供給大家,大家可以通過(guò)手機(jī)客戶(hù)端,或者通過(guò)網(wǎng)頁(yè)查看這個(gè)空氣質(zhì)量的情況。
大家會(huì)問(wèn)你做的準(zhǔn)不準(zhǔn)?我們?cè)?個(gè)城市的數(shù)據(jù)站點(diǎn)做了驗(yàn)證,我們可以把已有站點(diǎn)的數(shù)據(jù)拿掉,用我們的方法來(lái)預(yù)測(cè)這個(gè)地方的空氣質(zhì)量,然后和這個(gè)站點(diǎn)目前來(lái)校驗(yàn)。我們敢于把過(guò)去兩天的時(shí)時(shí)記錄公布在網(wǎng)站,大家可以看看,這個(gè)精度是80%幾,這個(gè)概念是什么,傳統(tǒng)的基于空氣動(dòng)力學(xué)模型的污染物擴(kuò)散模型,只能做到0.6,現(xiàn)在用大數(shù)據(jù)的方法來(lái)做,看似很多弱相關(guān)的數(shù)據(jù)放在一起,能達(dá)到20%的提升。所以環(huán)保部門(mén)對(duì)這個(gè)工作非常的重視。
我們看第二個(gè)例子,人的興趣點(diǎn)數(shù)據(jù)來(lái)分析這個(gè)城市里面不同功能區(qū)域的分布和它的核心區(qū)域所在。我們看這些東西,這個(gè)是用兩部分?jǐn)?shù)據(jù)做出來(lái)的結(jié)果,哪里是我們的商業(yè)區(qū),哪里是住宅區(qū)。一個(gè)地方區(qū)域的功能它不是單一的,比如說(shuō)北大,它主要功能是學(xué)校,周邊也有公司,只能說(shuō)這個(gè)區(qū)域70%是教學(xué),20%是公司企業(yè),還有10%是住宅。
我們要知道某一種區(qū)域的核心區(qū)域所在,比如黑色的,就反應(yīng)了北京市成熟商業(yè)區(qū)的核心區(qū)域覆蓋,這是一個(gè)動(dòng)態(tài)的,趨于人的變化。
這個(gè)工作有什么用呢?第一,我們用它來(lái)校驗(yàn)城市規(guī)劃,這個(gè)城市變化了的可能不一樣,有很多原因,可能以前做得規(guī)劃不合理,有人提出一些新的驅(qū)動(dòng),可能我們政策變了,我們很需要再做下一個(gè)版本規(guī)劃的時(shí)候,我們要知道我們需要什么。這是很重要的應(yīng)用,幫助我們城市規(guī)劃的人來(lái)做決策。
還有一點(diǎn)就是商業(yè)傳承,如果我開(kāi)一個(gè)超市,我要知道它離我居民住宅區(qū)的居民,我開(kāi)電影院要知道周邊的分布,選址還有價(jià)值。
我們?yōu)槭裁匆脙煞N數(shù)據(jù)?單單只有一種數(shù)據(jù)是不能完全反應(yīng)地貌的。這兩個(gè)餐館在數(shù)據(jù)庫(kù)里都是表示是中餐館,反應(yīng)的地域地貌是完全不一樣的。一個(gè)是住宅區(qū),一個(gè)是商業(yè)區(qū),它代表的意義是完全不同的。另外人的移動(dòng)性也反應(yīng)了區(qū)域的功能。如果這兩個(gè)數(shù)據(jù)我們就能發(fā)現(xiàn)城市里的功能區(qū)化在不斷的變化。
我們把這個(gè)區(qū)看成一篇文章,就相當(dāng)于這個(gè)區(qū)域的功能,相當(dāng)于一個(gè)文章里的詞語(yǔ),每個(gè)區(qū)域都有不同功能的分布。我們可以把過(guò)去兩年的數(shù)據(jù)拿來(lái)做出結(jié)果來(lái)對(duì)比,看看變化是不是真的有意義。第一個(gè)例子,區(qū)域A在2010年的時(shí)候淺黃色區(qū)域是新興住宅區(qū),到2011年銀灰色是在建設(shè)區(qū)。B區(qū)是前門(mén)大街,2010年的時(shí)候還是一個(gè)偏向于公園的范圍,但是2011年的時(shí)候變成黑色的成熟商業(yè)區(qū)。在奧運(yùn)會(huì)的時(shí)候,這個(gè)區(qū)域基本上重建了,所以現(xiàn)在已經(jīng)是一個(gè)成熟商業(yè)區(qū)。
這個(gè)圖是望京的圖,這是一個(gè)住宅區(qū),但是紫色的區(qū)域是新興商業(yè)區(qū),我們要讓人們知道這已經(jīng)變化了,你要考慮這個(gè)因素。這就是它的價(jià)值。
第三個(gè)問(wèn)題,關(guān)于能耗,有誰(shuí)能告訴我在北京市剛剛過(guò)去的一個(gè)小時(shí)里面有多少汽油被汽車(chē)加掉?誰(shuí)能告訴我在周邊的3公里范圍內(nèi)哪個(gè)加油站排隊(duì)時(shí)間最少?我們用裝有GPS傳感器的出租車(chē)做移動(dòng)傳感器,去感知他們?cè)诩佑驼镜牡却龝r(shí)間,用這個(gè)等待時(shí)間估計(jì)排隊(duì)長(zhǎng)度,就知道多少人在排隊(duì),每個(gè)人加多少油,加油量是怎樣分布的。你如果能把每個(gè)加油站的速度進(jìn)行分析的話(huà),就可以得到整個(gè)城市的情況。我們不能保證每個(gè)加油站在每個(gè)時(shí)間點(diǎn)里都有出租車(chē)司機(jī)在加油,這個(gè)做不到的,這個(gè)數(shù)據(jù)是很稀疏的,所以一定要有一些算法把數(shù)據(jù)吸收進(jìn)去去消除。
兩方面用,以前推薦加油站的時(shí)候,我們都是做的最近加油站的選擇,最近的加油站可能排隊(duì),遠(yuǎn)一點(diǎn)可能不排隊(duì)。我們知道我這個(gè)區(qū)域最是排隊(duì),人很多,說(shuō)明它不夠,要考慮建新的加油站。有的區(qū)域加油站過(guò)度建設(shè),根本就沒(méi)人去加油,大量的浪費(fèi)。
這兩張圖也是真實(shí)的結(jié)果,在早上8點(diǎn)鐘早高峰的時(shí)候,在北京加油站有多少人加油,大概接近6萬(wàn)人,平均的花消是12分鐘,到夜里8點(diǎn)鐘的時(shí)候,每個(gè)人花的時(shí)間是6分鐘左右。
我們看看結(jié)果,我們并不是估計(jì)出租車(chē)多少,我們是用出租車(chē)做移動(dòng)傳感器,感覺(jué)城市的能耗。出租車(chē)去得多的地方,并不以為著其他車(chē)多,反過(guò)來(lái)根據(jù)出租車(chē)的車(chē)來(lái)判斷是有區(qū)別的,通過(guò)對(duì)600多加油站分析,我們可以知道這個(gè)城市里面每個(gè)加油站有多少人加油,加油的量是多少。一個(gè)城市里面大概有一百多個(gè)公司在不同的運(yùn)營(yíng)。第二,他們即便知道總加油站是多少,他們不知道時(shí)時(shí),他們更不知道用戶(hù)花了多長(zhǎng)時(shí)間加這點(diǎn)油。時(shí)間確實(shí)很重要,反映了人員設(shè)施是不是優(yōu)化,布局是不是合理。
我們講城市計(jì)算很好,我們的方法是三個(gè)M,數(shù)據(jù)管理,數(shù)據(jù)挖掘。謝謝大家!