預(yù)測霧霾,大數(shù)據(jù)能幫什么忙?

責(zé)任編輯:editor005

2015-12-15 14:13:19

摘自:物媒體

目前,傳統(tǒng)模擬方法預(yù)測霧霾只能精細(xì)到區(qū)的范圍,比如可以預(yù)測到北京市海淀區(qū)、朝陽區(qū)的空氣質(zhì)量,而大數(shù)據(jù)可以精細(xì)化到每個(gè)空氣質(zhì)量站點(diǎn),比如可以預(yù)測海淀區(qū)萬柳站點(diǎn)未來48小時(shí)的空氣質(zhì)量狀況。

大數(shù)據(jù)

近段時(shí)間,全國范圍內(nèi)尤其是京津冀地區(qū)接連陷入霧霾之困,北京更是首次發(fā)布空氣重污染紅色預(yù)警,中小學(xué)連續(xù)停課3天,機(jī)動車單雙號限行。霧霾的背后,重污染天氣的預(yù)警預(yù)測工作顯得尤為重要,不僅可以讓公眾提前合理安排生產(chǎn)生活,也可以讓政府相關(guān)部門及時(shí)采取應(yīng)急措施,緩解重污染天氣帶來的危害。

微軟亞洲研究院主管研究員鄭宇一直從事大數(shù)據(jù)挖掘和算法研究,希望用大數(shù)據(jù)解決現(xiàn)代城市所面臨的問題。他和他的團(tuán)隊(duì)已經(jīng)成功用大數(shù)據(jù)計(jì)算出1km×1km細(xì)粒度的空氣質(zhì)量狀況、尾氣排放數(shù)據(jù)和噪聲污染指數(shù)。

那么,大數(shù)據(jù)是如何預(yù)測霧霾的呢?

大數(shù)據(jù)能不能成功預(yù)測霧霾?

Urban Air正是由微軟亞洲研究院開發(fā),用大數(shù)據(jù)預(yù)測城市空氣質(zhì)量的項(xiàng)目。目前,Urban Air已經(jīng)實(shí)現(xiàn)全國70多個(gè)城市空氣質(zhì)量預(yù)測,可以對京津冀、長三角、珠三角、成渝城市群未來48小時(shí)的空氣質(zhì)量進(jìn)行預(yù)測。

“大數(shù)據(jù)不僅能預(yù)測霧霾,還可以精細(xì)化預(yù)測。”鄭宇說,依靠經(jīng)典模擬方法預(yù)測預(yù)警霧霾,只能算出空氣質(zhì)量的均值,而大數(shù)據(jù)可以對1~6小時(shí)的空氣質(zhì)量逐小時(shí)進(jìn)行預(yù)測,對7~12小時(shí)、12~24小時(shí)、24~48小時(shí)進(jìn)行最大值和最小值的預(yù)測。

除了在預(yù)測精度上有優(yōu)勢外,大數(shù)據(jù)精細(xì)化預(yù)測還體現(xiàn)在地域范圍上。目前,傳統(tǒng)模擬方法預(yù)測霧霾只能精細(xì)到區(qū)的范圍,比如可以預(yù)測到北京市海淀區(qū)、朝陽區(qū)的空氣質(zhì)量,而大數(shù)據(jù)可以精細(xì)化到每個(gè)空氣質(zhì)量站點(diǎn),比如可以預(yù)測海淀區(qū)萬柳站點(diǎn)未來48小時(shí)的空氣質(zhì)量狀況。

大數(shù)據(jù)不僅能預(yù)測霧霾,還可以很快速。據(jù)鄭宇介紹,傳統(tǒng)的重污染天氣預(yù)測工作需要6小時(shí)左右的模擬運(yùn)算時(shí)間,無法快速實(shí)時(shí)發(fā)布,而大數(shù)據(jù)可以在幾秒鐘之內(nèi)快速算出重污染空氣質(zhì)量數(shù)據(jù)。

未來,霧霾的運(yùn)行軌跡也將有望實(shí)現(xiàn),霧霾從哪來,到哪去都將不是難題。記者了解到,鄭宇和他的團(tuán)隊(duì)正在從事霧霾因果相關(guān)性的研究,目前還處在研發(fā)階段,預(yù)計(jì)明年將正式投入應(yīng)用。

大數(shù)據(jù)怎么預(yù)測霧霾?

既然大數(shù)據(jù)可以預(yù)測霧霾,那么,能夠預(yù)測霧霾的大數(shù)據(jù)究竟包含哪些數(shù)據(jù)?這些數(shù)據(jù)又如何預(yù)測霧霾?

霧霾的大數(shù)據(jù)主要包括當(dāng)前空氣質(zhì)量數(shù)據(jù)、氣象條件、未來天氣預(yù)報(bào)3類數(shù)據(jù)。鄭宇特別介紹說,空氣質(zhì)量數(shù)據(jù)并不是指單純的空氣質(zhì)量站點(diǎn)數(shù)據(jù),而是以某空氣質(zhì)量站點(diǎn)為圓心,囊括了方圓300公里范圍內(nèi)所有的與空氣質(zhì)量相關(guān)的數(shù)據(jù),比如空氣質(zhì)量站點(diǎn)數(shù)據(jù)、交通流數(shù)據(jù)、氣象數(shù)據(jù)、廠礦數(shù)據(jù)、人口流動數(shù)據(jù)、路網(wǎng)結(jié)構(gòu)等。

與傳統(tǒng)模擬空氣質(zhì)量不同,大數(shù)據(jù)預(yù)測霧霾依靠的是多元融合方法,也就是說,空氣質(zhì)量的預(yù)測不僅僅看空氣質(zhì)量數(shù)據(jù),還要看與之相關(guān)的氣象數(shù)據(jù)、交通流量數(shù)據(jù)、廠礦數(shù)據(jù)、城市路網(wǎng)結(jié)構(gòu)等不同領(lǐng)域的數(shù)據(jù),不同領(lǐng)域的互相疊加,相互補(bǔ)強(qiáng),從而預(yù)測空氣質(zhì)量狀況。

“大數(shù)據(jù)應(yīng)用于預(yù)測霧霾,首先,由于每個(gè)站點(diǎn)、每個(gè)時(shí)段空氣質(zhì)量的影響因素都不盡相同,所以針對每個(gè)空氣質(zhì)量站點(diǎn),我們都會為這個(gè)站點(diǎn)每個(gè)時(shí)段單獨(dú)建一個(gè)空氣質(zhì)量模型,之后再將三者數(shù)據(jù)疊加,最后將數(shù)據(jù)進(jìn)行融合,制作出空氣質(zhì)量預(yù)測模型。”鄭宇說 ,這樣算下來 ,為預(yù)測北京市空氣質(zhì)量,建立的模型已經(jīng)達(dá)上百個(gè)。

大數(shù)據(jù)預(yù)測得準(zhǔn)不準(zhǔn)?

那么,多元融合的大數(shù)據(jù)算法與傳統(tǒng)的空氣模擬預(yù)測相比,是否更準(zhǔn)確?

“其實(shí),大數(shù)據(jù)預(yù)測與傳統(tǒng)模擬方法有一定的相似性,都是通過數(shù)據(jù)來擬合模型,只不過是數(shù)據(jù)量大小不同。”鄭宇說,以往由于獲知的數(shù)據(jù)有限,傳統(tǒng)模擬方法只能基于有限的樣本數(shù)據(jù),由科研人員通過經(jīng)驗(yàn)、假設(shè)找出這些數(shù)據(jù)間的規(guī)律,模擬出簡單的模型,預(yù)測空氣質(zhì)量。而隨著數(shù)據(jù)增多,單單依靠人工已經(jīng)無法從海量繁雜的數(shù)據(jù)中找出規(guī)律,所以需要借助機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等工具來發(fā)現(xiàn)多源數(shù)據(jù)中隱含的規(guī)律。

如今影響空氣質(zhì)量的因素越來越多,傳統(tǒng)模擬的方法顯得“力不從心”。鄭宇介紹說,傳統(tǒng)模擬空氣質(zhì)量預(yù)測首先需要搜集完整的污染源數(shù)據(jù),比如企業(yè)的排污數(shù)據(jù)和汽車尾氣排放等,而這些數(shù)據(jù)無法全部獲知;其次模型太理想化,污染物在空氣中傳播和變化的實(shí)際情況,要復(fù)雜很多。

隨著影響空氣質(zhì)量的因素增多,數(shù)據(jù)量的增大,大數(shù)據(jù)在空氣質(zhì)量預(yù)測上頗有優(yōu)勢。比如傳統(tǒng)方法要拿到精確的地面污染源數(shù)據(jù)才能預(yù)測,而大數(shù)據(jù)則可以解決數(shù)據(jù)缺失的問題。比如對于交通尾氣數(shù)據(jù)難獲取的情況,大數(shù)據(jù)運(yùn)算可以采用與交通尾氣相關(guān)的交通流量、排量等相關(guān)數(shù)據(jù),間接地分析其與空氣質(zhì)量的關(guān)系。“大數(shù)據(jù)的精髓就是A領(lǐng)域的問題可以借助B領(lǐng)域、C領(lǐng)域、D領(lǐng)域的數(shù)據(jù)來一起解決,通過多元數(shù)據(jù)融合的方法來解決數(shù)據(jù)缺失和不精準(zhǔn)的問題。”鄭宇說。

空氣質(zhì)量站點(diǎn)、相關(guān)領(lǐng)域的數(shù)據(jù)、大數(shù)據(jù)先進(jìn)的挖掘技術(shù)和模型,保證了大數(shù)據(jù)預(yù)測的準(zhǔn)確性。據(jù)了解,現(xiàn)在大數(shù)據(jù)對京津冀霧霾的預(yù)測精度可以達(dá)到75%,對成渝等地的預(yù)測精度會更高,平均準(zhǔn)確率比統(tǒng)模擬方法高15%~20%。

大數(shù)據(jù)預(yù)測還存在哪些困難?

雖然大數(shù)據(jù)對霧霾的預(yù)測已經(jīng)成功實(shí)踐,但鄭宇也坦言,大數(shù)據(jù)預(yù)測霧霾確實(shí)還有很多困難。

數(shù)據(jù)量少是大數(shù)據(jù)發(fā)展的掣肘,大數(shù)據(jù)的預(yù)測是基于對大量的數(shù)據(jù)進(jìn)行學(xué)習(xí)。但我國數(shù)據(jù)開放進(jìn)程比較晚,并且很多污染源數(shù)據(jù)都還不完善。

“數(shù)據(jù)量大小直接影響大數(shù)據(jù)預(yù)測的精準(zhǔn)度。”鄭宇說,比如數(shù)據(jù)樣本量不夠,會導(dǎo)致霧霾的拐點(diǎn)很難預(yù)測,目前傳統(tǒng)經(jīng)典模型和大數(shù)據(jù)模型都很難說清楚霧霾何時(shí)會消散。“很多人認(rèn)為大風(fēng)來了,霧霾一定會散去,真實(shí)情況并非如此,霧霾消散與大風(fēng)的強(qiáng)度、持續(xù)時(shí)間、風(fēng)向來源地都有非常大的關(guān)系。比如,如果風(fēng)向的來源地本身是污染源,那么霧霾不但不會散去,反而會加重。”鄭宇說,目前有關(guān)拐點(diǎn)出現(xiàn)次數(shù)的數(shù)據(jù)特別少,可能一百天出現(xiàn)一次,對簡單的統(tǒng)計(jì)學(xué)模型來說,拐點(diǎn)出現(xiàn)就是少數(shù)派,模型很難預(yù)測拐點(diǎn)。目前,鄭宇和他的團(tuán)隊(duì)也在單獨(dú)對拐點(diǎn)進(jìn)行建模,準(zhǔn)確度已經(jīng)提高到30%。

針對大數(shù)據(jù)在環(huán)保領(lǐng)域未來的發(fā)展,鄭宇認(rèn)為國家首先要培養(yǎng)數(shù)據(jù)科學(xué)家,不僅僅是懂大數(shù)據(jù)挖掘算法,還要?jiǎng)有袠I(yè)知識,這樣才能把大數(shù)據(jù)轉(zhuǎn)化為生產(chǎn)力。其次,大數(shù)據(jù)時(shí)代要求政府開放數(shù)據(jù)。只要數(shù)據(jù)足夠,未來工業(yè)園區(qū)的建設(shè)與空氣質(zhì)量的變化情況,整個(gè)城市設(shè)計(jì)與空氣質(zhì)量的變化情況,完全可以依靠大數(shù)據(jù)實(shí)現(xiàn)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號