沉睡的“科學(xué)大數(shù)據(jù)”如何喚醒

責(zé)任編輯:jacky

2014-06-13 08:33:15

摘自:中國科技網(wǎng)-科技日報(bào)

胡善慶:在過去的一個(gè)世紀(jì),傳統(tǒng)普查和新引進(jìn)的隨機(jī)抽樣調(diào)查共同被應(yīng)用于各國人口和經(jīng)濟(jì)的測量與推論。胡善慶:中國推動(dòng)智慧城市,使原來的全國性基礎(chǔ)數(shù)據(jù)庫支解到比較易于管理的市級制度,然后再總匯到省或較大地區(qū)的水平。

 



6月8日,國際科技數(shù)據(jù)委員會(huì)主辦的“大數(shù)據(jù)與科學(xué)發(fā)現(xiàn)國際研討會(huì)”開幕,近百位科學(xué)家共聚一堂,研討如何喚醒沉睡的“科學(xué)大數(shù)據(jù)”。大數(shù)據(jù)已經(jīng)進(jìn)入社會(huì)的各個(gè)層面,科學(xué),商業(yè),社會(huì)管理等等,無不都在探索大數(shù)據(jù)帶來的價(jià)值。統(tǒng)計(jì)作為一門研究數(shù)據(jù)的科學(xué),在大數(shù)據(jù)時(shí)代下其作用和地位也在隨之提高。

今年3月份,《國家新型城鎮(zhèn)化規(guī)劃(2014-2020年)》發(fā)布,《規(guī)劃》第31章指出:加強(qiáng)城鎮(zhèn)化統(tǒng)計(jì)工作,順應(yīng)城鎮(zhèn)化發(fā)展態(tài)勢,建立健全統(tǒng)計(jì)監(jiān)測指標(biāo)體系和統(tǒng)計(jì)綜合評價(jià)指標(biāo)體系,規(guī)范統(tǒng)計(jì)口徑、統(tǒng)計(jì)標(biāo)準(zhǔn)和統(tǒng)計(jì)制度方法。加快制定城鎮(zhèn)化發(fā)展監(jiān)測評估體系,實(shí)施動(dòng)態(tài)監(jiān)測與跟蹤分析,開展規(guī)劃中期評估和專項(xiàng)監(jiān)測,推動(dòng)本規(guī)劃順利實(shí)施。

大數(shù)據(jù)時(shí)代已然來臨,它對于當(dāng)前統(tǒng)計(jì)學(xué)應(yīng)用于社會(huì)的意義是什么?挑戰(zhàn)又在哪里?統(tǒng)計(jì)應(yīng)用對于國家決策起著何種作用?針對這些問題,本報(bào)對話美國華人統(tǒng)計(jì)學(xué)家,美國百人會(huì)華盛頓地區(qū)共同主席胡善慶先生。

突破信息統(tǒng)計(jì)關(guān)鍵環(huán)節(jié)

科技日報(bào):您如何看待中國對于數(shù)據(jù)的使用情況?

胡善慶:自2002年以來,中國積極整合和發(fā)展全國性的縱向數(shù)據(jù)系統(tǒng),特別是建立各種定義、代碼、和標(biāo)準(zhǔn),更是不遺余力,已經(jīng)奠定了相當(dāng)穩(wěn)固的基礎(chǔ)。然而也存在不少薄弱的關(guān)鍵環(huán)節(jié)和諸多挑戰(zhàn),包括數(shù)據(jù)的共享和公開,信息的及時(shí)和質(zhì)量,統(tǒng)計(jì)的思維和設(shè)計(jì),工具,例如地圖的智能化,此外還有數(shù)據(jù)收集和計(jì)算方法的透明化,符合應(yīng)用既定標(biāo)準(zhǔn)和增強(qiáng)對不同信息的可用性和傳遞等等。其中一些問題是全球性的,有些則是中國特有的。

科技日報(bào):如何理解統(tǒng)計(jì)對于國家政策的作用?

胡善慶:在過去的一個(gè)世紀(jì),傳統(tǒng)普查和新引進(jìn)的隨機(jī)抽樣調(diào)查共同被應(yīng)用于各國人口和經(jīng)濟(jì)的測量與推論。

不過人類活動(dòng)是連續(xù)和動(dòng)態(tài)的,普查只能為一個(gè)指定的普查日子或短暫時(shí)期提供一個(gè)比較全面的速映。通常普查結(jié)果在被宣布時(shí),它們已經(jīng)過時(shí)了。盡管如此,20世紀(jì)期間,這兩種統(tǒng)計(jì)數(shù)據(jù)方法在全世界支持決策、政策的制定和傳遞信息都非常重要。

美國、中國和其他國家都很普遍地舉行多范圍包括人口、經(jīng)濟(jì)、工業(yè)和農(nóng)業(yè)的普查和隨機(jī)抽樣調(diào)查。例如美國政府每月收集來自6萬個(gè)家庭的數(shù)據(jù),來對國家就業(yè)形勢發(fā)表月度報(bào)告。根據(jù)這些數(shù)據(jù)計(jì)算得出美國失業(yè)率,僅約有0.2%抽樣誤差。美國有1.2億個(gè)家庭,共3.1億人,而關(guān)于其經(jīng)濟(jì)的很多重大推論和政策就是由分析這些隨機(jī)抽樣數(shù)據(jù)而得出的。

中國也有人口和經(jīng)濟(jì)普查。雖然每項(xiàng)普查都有不同的法律背景或動(dòng)機(jī),但最終目的是相似,都是為了提供有關(guān)聯(lián)的、及時(shí)的和可靠的數(shù)據(jù),以用于研究、分析、支持最后決策。作為一個(gè)快速成長的經(jīng)濟(jì)大國,中國的統(tǒng)計(jì)數(shù)字日益受到重視,并對世界具有重大影響力,但也面對許多相同的挑戰(zhàn)。

利用先進(jìn)技術(shù)啟動(dòng)統(tǒng)計(jì)2.0時(shí)代

科技日報(bào):在統(tǒng)計(jì)應(yīng)用上,您認(rèn)為大數(shù)據(jù)時(shí)代的到來為統(tǒng)計(jì)學(xué)應(yīng)用帶來何種契機(jī)?

胡善慶:我們知道,2000年以來,廉價(jià)捕獲和儲存大量電子數(shù)據(jù)的能力暴升,新方法也在不斷被發(fā)現(xiàn)和拓寬,大數(shù)據(jù)時(shí)代因此來臨。全球數(shù)據(jù)大量電子化及大數(shù)據(jù)爆發(fā)成長刺激和引起對更及時(shí)和更廣泛信息的更多要求。

但大數(shù)據(jù)的收集幾乎從不依照概率設(shè)計(jì),且通常沒有結(jié)構(gòu),也就無法進(jìn)行傳統(tǒng)的統(tǒng)計(jì)分析。大數(shù)據(jù)和先進(jìn)技術(shù)則提供了一個(gè)啟動(dòng)統(tǒng)計(jì)2.0的理想時(shí)機(jī)。

對復(fù)雜數(shù)據(jù)的可視化和處理必然成為統(tǒng)計(jì)2.0的核心環(huán)節(jié),實(shí)現(xiàn)用統(tǒng)計(jì)的方法講故事。動(dòng)態(tài)框架保留了傳統(tǒng)框架的原始功能,并能及時(shí)捕獲最新數(shù)據(jù),有利于實(shí)時(shí)分析,并且動(dòng)態(tài)框架能夠靈活拓展,促進(jìn)創(chuàng)新實(shí)踐和創(chuàng)新產(chǎn)品。

倘若成本合適,并且能夠如同一個(gè)隨機(jī)樣本般呈現(xiàn)出高效率和高質(zhì)量數(shù)據(jù)分析,我們有什么理由不去研究整個(gè)總體呢?但要注意,數(shù)據(jù)中所謂的“大”是一個(gè)相對的概念,它是根據(jù)樣本量在總體中所占的百分比而定,而并非是關(guān)于數(shù)據(jù)儲存量而定的絕對概念。

科技日報(bào):那么如何理解之前的統(tǒng)計(jì)階段?也就是統(tǒng)計(jì)1.0

胡善慶:19世紀(jì)晚期,隨機(jī)抽樣的概念首次被引入,經(jīng)過40多年的爭論,才被完全接受成為一門科學(xué)學(xué)科。一部分人慢慢開始關(guān)注隨機(jī)現(xiàn)象,并逐漸聚焦分析以隨機(jī)概率收集到的有代表性的數(shù)據(jù),使統(tǒng)計(jì)成為專業(yè),數(shù)理統(tǒng)計(jì)才因此迅速發(fā)展。

數(shù)理統(tǒng)計(jì)以概率為專業(yè)理論基礎(chǔ),達(dá)成國際一致的標(biāo)準(zhǔn)認(rèn)同,開啟統(tǒng)計(jì)1.0,并成為劃時(shí)代的分水嶺。但傳統(tǒng)的普查和隨機(jī)調(diào)查是靜態(tài)、定時(shí)的,它不可能毫無基本變化地滿足不斷擴(kuò)張的動(dòng)態(tài)需求。

21世紀(jì)統(tǒng)計(jì)系統(tǒng)和方法特征在于可精巧地應(yīng)用大量縱向數(shù)據(jù)、連接組合多個(gè)數(shù)據(jù)來源、迅速簡單地遞送信息,同時(shí)能夠繼續(xù)嚴(yán)格保護(hù)穩(wěn)私和數(shù)據(jù)安全,并認(rèn)證準(zhǔn)確與可靠度。

把大數(shù)據(jù)比作“泥沙”更貼切

科技日報(bào):業(yè)界對于大數(shù)據(jù)的討論越來越熱,甚至有神話大數(shù)據(jù)的傾向,您認(rèn)為大數(shù)據(jù)是泥沙還是金沙?

胡善慶:很多人會(huì)把大數(shù)據(jù)比喻為金沙,甚至覺得可以隨手可得,若果真如此,很多人早已發(fā)了大財(cái)。把大數(shù)據(jù)比喻為泥沙會(huì)比較貼切,但大量泥沙本身也有價(jià)值。古有堆沙成塔的說法,今日是硅片的原素,更高的價(jià)值則在于它是一門尚未完全開發(fā)的新學(xué)問。這一大堆泥沙當(dāng)中,有時(shí)包含一些金沙,有時(shí)一點(diǎn)也沒有,極少場合之下,也會(huì)有很多。無論如何,都要投資費(fèi)力,下工夫挖掘淘沙,沒有什么軟件或可以取代。

科技日報(bào):數(shù)據(jù)對于智慧城市的建設(shè)也至關(guān)重要,大數(shù)據(jù)時(shí)代下,您如何看待智慧城市在中國的落地情況?

胡善慶:中國推動(dòng)智慧城市,使原來的全國性基礎(chǔ)數(shù)據(jù)庫支解到比較易于管理的市級制度,然后再總匯到省或較大地區(qū)的水平。到2013年底,中國已建立了至少193個(gè)智慧城市試點(diǎn)。無疑,在未來幾年內(nèi)中國也會(huì)繼續(xù)推動(dòng)實(shí)現(xiàn)建設(shè)更智慧的城市。

我了解到,2013年10月29日,中國首個(gè)城市公共信息服務(wù)平臺發(fā)布,現(xiàn)在平臺已在幾個(gè)智慧城市試點(diǎn)實(shí)施啟用。它提供了一站式中心,服務(wù)于百萬計(jì)市民,打破戶籍,使市民能夠用一個(gè)安全的智能卡作為額外渠道,實(shí)現(xiàn)以前分隔獨(dú)立的城市功能。

開拓這個(gè)系統(tǒng)就是一個(gè)溫和的小開端,它代表了實(shí)際工作在進(jìn)展,有助于奠定基礎(chǔ),并建設(shè)成功的中國城市信息學(xué)和應(yīng)用。

在前段時(shí)間在伊利諾伊大學(xué)芝加哥分校研討會(huì)上,我們也做出了《通過大數(shù)據(jù)和統(tǒng)計(jì)看中國城市》的論文提案,現(xiàn)在提案已從90個(gè)提案角逐而出,準(zhǔn)備參與8月份的二次會(huì)議。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號