大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)和經(jīng)濟(jì)學(xué)的影響

責(zé)任編輯:editor006

2015-07-08 16:23:44

摘自:愛(ài)數(shù)據(jù)

比如: 社交網(wǎng)絡(luò)上發(fā)的微博或者朋友圈里所包含的文字?jǐn)?shù)據(jù) (這是以往經(jīng)濟(jì)分析中不太會(huì)使用的) 簡(jiǎn)而言之, 預(yù)測(cè)建模可以理解為: 已知 N 個(gè)觀察 通過(guò) K 個(gè)預(yù)測(cè)變量 來(lái)推導(dǎo)出相關(guān)性最強(qiáng)的 N 個(gè)結(jié)果

大數(shù)據(jù)

  1. 大數(shù)據(jù)的"大"

大數(shù)據(jù)最顯著的特征就是 數(shù)據(jù)量大 ( large scope ) + 即時(shí)性 ( real time data )

比如: 你在超市收銀機(jī)的數(shù)據(jù), 網(wǎng)購(gòu)的記錄, 或者在線閱讀( 比如在知乎的關(guān)注文章 ) 等等.

同時(shí)大數(shù)據(jù)時(shí)代帶來(lái)了很多新的數(shù)據(jù)類型 (新在于對(duì)比以往經(jīng)濟(jì)學(xué)上運(yùn)用的數(shù)據(jù))

比如: 社交網(wǎng)絡(luò)上發(fā)的微博或者朋友圈里所包含的文字?jǐn)?shù)據(jù) (這是以往經(jīng)濟(jì)分析中不太會(huì)使用的).

計(jì)量經(jīng)濟(jì)中的數(shù)據(jù)結(jié)構(gòu)經(jīng)常是矩陣型的, 也就是說(shuō)通常收集 N 個(gè)觀察項(xiàng), K 個(gè)變量 (且 K << N)

大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)顯然不是這樣, 很多情況下 K > N

計(jì)量中經(jīng)常假設(shè)觀察項(xiàng)之間是獨(dú)立的, 但是在社交網(wǎng)絡(luò)中觀察項(xiàng)之間卻是經(jīng)?;ハ嗦?lián)結(jié), 計(jì)量經(jīng)濟(jì)學(xué)未來(lái)在使用社交網(wǎng)絡(luò)數(shù)據(jù)時(shí)如何處理這種觀察項(xiàng)間的影響將成為一個(gè)關(guān)鍵.

2. 目前時(shí)髦的大數(shù)據(jù)應(yīng)用: 預(yù)測(cè)建模 ( predictive modeling )

簡(jiǎn)而言之, 預(yù)測(cè)建模可以理解為: 已知 N 個(gè)觀察 通過(guò) K 個(gè)預(yù)測(cè)變量 來(lái)推導(dǎo)出相關(guān)性最強(qiáng)的 N 個(gè)結(jié)果.

大數(shù)據(jù)時(shí)代數(shù)據(jù)雖然豐富多了, 但是數(shù)據(jù)的質(zhì)量卻很容易下降.

比如: 縱使你有全國(guó)層次上百萬(wàn)級(jí)的觀察項(xiàng), 而你所研究的課題卻是在市縣層次. 容易造成大量不相關(guān)且描述不夠詳盡的數(shù)據(jù).

而且這種統(tǒng)計(jì)方法面臨一個(gè)權(quán)衡取舍:

在 K > N 的時(shí)候, 模型的樣本外預(yù)測(cè)效果 ( out-of-sample performance ) 就會(huì)很差. 但是模型的樣本內(nèi)預(yù)測(cè)效果 (in-sample performance) 會(huì)很好.

而當(dāng)經(jīng)濟(jì)學(xué)家考慮運(yùn)用機(jī)器學(xué)習(xí)的方法時(shí), 很容易想到盧卡斯批評(píng)( Lucas Critique ): 如果一個(gè)預(yù)測(cè)模型通過(guò)收集市場(chǎng)上已知的經(jīng)濟(jì)行為, 從而用來(lái)預(yù)測(cè)最優(yōu)的政府干預(yù)政策時(shí), 預(yù)測(cè)的結(jié)果可能并不準(zhǔn)確, 因?yàn)轭A(yù)測(cè)出來(lái)的干預(yù)政策會(huì)改變市場(chǎng)的經(jīng)濟(jì)行為( 而這些正是和原模型中相關(guān)聯(lián)的 )

3. 大數(shù)據(jù)時(shí)代已經(jīng)為實(shí)證經(jīng)濟(jì)學(xué)研究提供了新的思路

美國(guó)統(tǒng)計(jì)局調(diào)查通貨膨脹是使用派發(fā)問(wèn)卷的方式, 回收的數(shù)據(jù)再分類到不同的通貨膨脹指標(biāo)中 (eg CPI). 大數(shù)據(jù)領(lǐng)域的 Billion Price Project ( BPP ) 運(yùn)用實(shí)時(shí)的在線商店數(shù)據(jù)提供

一種 CPI 的替代指標(biāo) (這一指標(biāo)在美國(guó)被驗(yàn)證 BPP 與 CPI 有很強(qiáng)的相關(guān)性).

其他的還有穆迪分析通過(guò) MasterCard 和 Visa 的 Spending Pulse 來(lái)提供行業(yè)就業(yè)率的觀測(cè)指標(biāo).

然而這些大數(shù)據(jù)還不夠完美, 很顯然這些數(shù)據(jù)的樣本本身就不具有代表性. 比如: 利用 MasterCard 和 Visa 推導(dǎo)出的就業(yè)率指數(shù)首先就要求被調(diào)查者要至少有一張 MasterCard 或者 Visa.

4. 對(duì)經(jīng)濟(jì)學(xué)家的挑戰(zhàn)

數(shù)據(jù)獲取: 公共領(lǐng)域以及政府?dāng)?shù)據(jù)是否容易獲得.

數(shù)據(jù)管理以及編輯能力: 經(jīng)濟(jì)學(xué)家是否有能力快速的把大數(shù)據(jù)高效地應(yīng)用在經(jīng)濟(jì)學(xué)思想.

最重要的, 急需開發(fā)出創(chuàng)新的數(shù)據(jù)總結(jié), 描述和分析的方法.

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)