古代人們出門之前只能查查黃歷,宜出行,忌造屋。
到了現(xiàn)代,隨著大數(shù)據(jù)技術(shù)的發(fā)展,可以實(shí)現(xiàn)這種場景,“半個(gè)小時(shí)后出發(fā)到中關(guān)村,請根據(jù)當(dāng)時(shí)的路況規(guī)劃線路。”這個(gè)問題估計(jì)會難倒現(xiàn)在所有導(dǎo)航軟件,因?yàn)閷?dǎo)航目前還沒有預(yù)測功能。
但大數(shù)據(jù)誕生,本身就不是為了總結(jié)歸納,而是預(yù)測,隨著運(yùn)算能力提升,可以從預(yù)測趨勢,完善到預(yù)測實(shí)際場景。
近期,浙江省交通運(yùn)輸廳正在開展一項(xiàng)新的試點(diǎn):將高速歷史數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)與路網(wǎng)狀況結(jié)合,基于阿里云大數(shù)據(jù)計(jì)算能力,預(yù)測出未來1小時(shí)內(nèi)的路況。結(jié)果顯示,預(yù)測準(zhǔn)確率穩(wěn)定在91%以上。
這樣看來,交通部的這個(gè)試點(diǎn),已經(jīng)成為高準(zhǔn)確度的“算命大師”。那么,這個(gè)原理是怎么實(shí)現(xiàn)的呢?
西方一個(gè)科幻作家提到過,預(yù)測未來有幾種方式,1、統(tǒng)計(jì)歷史數(shù)據(jù),搜集數(shù)字、圖表等原始數(shù)據(jù)進(jìn)行分析,然后預(yù)測。2、走訪調(diào)查實(shí)際情況,增加數(shù)字、圖表之外的維度,比如針對交通來說,即將開始的演唱會或者車禍,都會造成影響。3、遇到一個(gè)從未來穿越而來的人,聽他講述。
既然第三種實(shí)現(xiàn)概率太低,那目前只能從第一、第二種來入手了。來看看交通部和阿里云是怎么實(shí)現(xiàn)“算命”功能的。
歷史和未來
如果上帝在俯瞰人間,那他可以得到足夠多的信息,進(jìn)而可以預(yù)測出很多行為軌跡。比如說,一個(gè)城市每天早上有多少人會在上班的路上。而這些熙熙攘攘的車流,就像蜂群一樣,在沒有引導(dǎo)的情況下,很容易造成堵塞。
浙江省交通信息中心主任韓海航表示,交通部希望通過對未來路況的預(yù)測,更好的進(jìn)行交通引導(dǎo),用戶也可以做出更優(yōu)的路線選擇。
換句話說,預(yù)測的原理很簡單,就是通過歷史數(shù)據(jù)軌跡,即時(shí)數(shù)據(jù)呈現(xiàn),結(jié)合突發(fā)因素,進(jìn)而得出對未來一個(gè)時(shí)間段交通情況的判斷。
但實(shí)現(xiàn)起來挺難的,比如說,如何采集到歷史數(shù)據(jù)。畢竟,沒有數(shù)據(jù)就無法討論大數(shù)據(jù)。
此前浙江交通部一直想做這樣的工作,但是受采集技術(shù)的制約,實(shí)時(shí)交通數(shù)據(jù)的更新時(shí)間比較長,有的高達(dá)15分鐘。這么長時(shí)間延遲的數(shù)據(jù)適合做歷史分析,但不適合做即時(shí)預(yù)測。另外,傳統(tǒng)鋪設(shè)線圈的方式,硬件投資巨大。
這次合作中,浙江交通部引入新的數(shù)據(jù)來源,將手機(jī)信令數(shù)據(jù)同道路通行數(shù)據(jù)進(jìn)行關(guān)聯(lián)。而手機(jī)在城市道路上,一般每隔500米一個(gè)運(yùn)營商基站,在市郊高速路上大約為2公里。當(dāng)手機(jī)用戶經(jīng)過基站時(shí),形成的信令數(shù)據(jù)可以較準(zhǔn)確地反映出單位時(shí)間內(nèi)通過該路段的實(shí)時(shí)路況變化。
比如,檢測到樣本車輛在高速公路上停止行駛,而同路段大部分車輛速度下降,那么就可以判斷這一路段上可能出現(xiàn)事故或擁堵。
從成本投入來說,相比較于傳統(tǒng)傳感器采集高速路況數(shù)據(jù),這種方式至少可以降低90%的成本。建設(shè)周期也大大縮短,2至3個(gè)月即可完成。
利用這種方式,積累一定歷史維度的交通數(shù)據(jù),可以得到一個(gè)基本情況,比如一條道路在工作日或者周末正常的車流情況,再結(jié)合一個(gè)時(shí)間段的即時(shí)數(shù)據(jù)進(jìn)行對比,就可以得出其在正常運(yùn)行情況還是反常情況的結(jié)論,進(jìn)而進(jìn)一步人工干預(yù)。
這種系統(tǒng)會越用越聰明,因?yàn)榻?jīng)過實(shí)際應(yīng)用會沉淀出越來越多的規(guī)則。
計(jì)算的價(jià)值
數(shù)據(jù)像石油,而挖掘石油的價(jià)值需要機(jī)器設(shè)備(算法和規(guī)則),而機(jī)器設(shè)備要運(yùn)作就需要能源(計(jì)算能力)。
阿里云提供的就是計(jì)算能力。在這次與浙江交通部的合作中,阿里云大數(shù)據(jù)計(jì)算服務(wù)(ODPS)為項(xiàng)目提供了分析支持,并有多位資深數(shù)據(jù)科學(xué)家參與了聯(lián)合研發(fā)。
阿里云的閔萬里博士介紹,對于浙江省內(nèi)近1300公里的高速路段,ODPS可以在20分鐘完成歷史數(shù)據(jù)分析,10秒鐘完成實(shí)時(shí)數(shù)據(jù)分析。
換句話說,交通部提供了數(shù)據(jù)石油,而阿里云提供了計(jì)算能力,雙方還需要共同探討如何把石油的價(jià)值最大化挖掘出來,即引入分析和算法,最終形成可用的規(guī)則。
規(guī)則越多,引入的計(jì)算因素越多,那需要的計(jì)算能力就越強(qiáng)。就像現(xiàn)在電腦上的軟件親民好用,但是如果放到以前的老款電腦里,根本無法跑起來,因?yàn)橛?jì)算能力不夠。
閔萬里提到,路況預(yù)測的應(yīng)用價(jià)值很高,但關(guān)鍵在準(zhǔn)確性,需要“算得準(zhǔn)、算得快、算得起”。如果僅僅基于歷史平均數(shù)據(jù)來做簡單預(yù)測,那并沒有實(shí)際意義。只有分析因素和維度越多,數(shù)據(jù)越豐富,得出的預(yù)測結(jié)果才會越準(zhǔn)確。
“路網(wǎng)關(guān)系、上下游事件,甚至天氣等外部綜合因素都應(yīng)該加入進(jìn)來。但當(dāng)這些海量數(shù)據(jù)納入到全網(wǎng)路況的時(shí)空演變模型后,對云平臺的大數(shù)據(jù)計(jì)算能力就提出了很高的要求”。
而計(jì)算能力恰好是阿里云最擅長的,并且已經(jīng)經(jīng)過考驗(yàn)。比如承載12306火車票春運(yùn)購買高峰,以及雙十一每秒鐘訂單創(chuàng)建14萬筆,支付達(dá)到了每秒8.59萬筆,是6年前的430倍左右。
另外,阿里云在Sort Benchmark排序競賽中,用不到7分鐘(377秒)完成了100TB的數(shù)據(jù)排序,成為世界冠軍。Sort Benchmark是大數(shù)據(jù)界的奧運(yùn)會,每年全球頂尖公司和學(xué)術(shù)機(jī)構(gòu)都會帶著他們最新的研究成果來參加,以評估他們的研究成果。
近期還聽到一個(gè)小道消息,阿里云計(jì)算中心的安全級別是戰(zhàn)爭級別,有的服務(wù)器安置在深山老林的隱蔽處。即使城市癱瘓,計(jì)算能力也還在。
回到預(yù)測交通項(xiàng)目,此前微軟曾聯(lián)合巴西一所大學(xué)進(jìn)行了相似的嘗試,準(zhǔn)確率為80%。微軟希望在加入更多數(shù)據(jù)源后,將這一成績提升到90%。
看來,中國在工業(yè)時(shí)代落后的步伐,有希望在科技領(lǐng)域找補(bǔ)回來。