這幾年很熱門的大數(shù)據(jù)在主要用數(shù)據(jù)說話的人口學(xué)界卻較為冷清。除王廣州專門發(fā)文討論過大數(shù)據(jù)時代人口科學(xué)的創(chuàng)新問題外,其他人很少進行正式的討論;具體研究方面,僅有少數(shù)學(xué)者用戶籍登記數(shù)據(jù)、婚姻登記數(shù)據(jù)、手機信令數(shù)據(jù)、燈光遙感數(shù)據(jù)、百度遷徙數(shù)據(jù)做研究發(fā)表在人口學(xué)期刊上,其中屬于人口學(xué)的更少。為什么會出現(xiàn)這種情況呢?
講求量的準(zhǔn)確導(dǎo)致人口學(xué)大數(shù)據(jù)
和研究討論較少
大體而言,這和中國大數(shù)據(jù)的開放現(xiàn)狀、人口學(xué)研究取向以及人口學(xué)者的訓(xùn)練都有一定關(guān)系。
首先,人口學(xué)研究講求量的準(zhǔn)確,而能提供這種準(zhǔn)確度的大數(shù)據(jù)不多。如南佛羅里達(dá)國際大學(xué)的賴慶博士關(guān)于定量和量化的概念辨析所言,人口學(xué)是“定于量”的,不像社會學(xué)“化為量”即可。關(guān)于中國生育水平到底有多高,人口學(xué)界爭論了20多年,就是為了確定總和生育率到底是在1—2之間的哪個具體小數(shù)上。
其次,近十多年來,確實有越來越多的信息被電子化甚至量化,但是諸如普查數(shù)據(jù)、戶籍?dāng)?shù)據(jù)、婚姻登記數(shù)據(jù)、出生數(shù)據(jù)、教育學(xué)籍?dāng)?shù)據(jù),以及醫(yī)保、交通、勞保、不動產(chǎn)、銀行等公共部門掌握的微觀個人數(shù)據(jù)開放獲取的可能性仍很低。已開放的數(shù)據(jù)往往只是一些互聯(lián)網(wǎng)企業(yè)有限開放的異形數(shù)據(jù)或互聯(lián)網(wǎng)上可以公開爬取的零碎的、不系統(tǒng)的文本、圖片、視頻數(shù)據(jù)。這些數(shù)據(jù)往往缺乏基礎(chǔ)性的社會人口變量,而且大多沒有解決樣本的代表性和測量準(zhǔn)確性問題,無法對人口學(xué)所關(guān)心的人口數(shù)量、結(jié)構(gòu)、過程做出精確估計。因此,人口學(xué)者通常也不會用這類數(shù)據(jù)。
再者,人口學(xué)者不太擅長用這些新數(shù)據(jù)。一直以來,人口學(xué)者主要依賴權(quán)威部門(統(tǒng)計局、衛(wèi)計委)發(fā)布的匯總數(shù)據(jù)或者規(guī)模抽樣調(diào)查數(shù)據(jù)來做研究。相對于社會學(xué)者,人口學(xué)者處理的大多是變量相對少、結(jié)構(gòu)比較簡單的結(jié)構(gòu)性數(shù)據(jù),采集和處理異形數(shù)據(jù)(如訪談文本數(shù)據(jù))的經(jīng)驗較少。在這一點上,人口學(xué)者比社會學(xué)者更挑數(shù)據(jù),也更依賴于公共部門。人口學(xué)擅長年齡、隊列分析,經(jīng)常要求年齡別或者五歲組的統(tǒng)計指標(biāo),這通常要求每一個年齡組都具有獨立的代表性,從而在樣本規(guī)模要求上要大數(shù)十倍。中國人口學(xué)者主要使用的數(shù)據(jù)包括統(tǒng)計局的普查、小普查的樣本數(shù)據(jù),人口變動抽樣調(diào)查數(shù)據(jù),衛(wèi)計委組織的流動人口動態(tài)監(jiān)測調(diào)查數(shù)據(jù)和計生服務(wù)與生育狀況調(diào)查數(shù)據(jù)等微觀樣本數(shù)據(jù),其他各種教育、衛(wèi)生、戶籍、人口匯總統(tǒng)計數(shù)據(jù),以及各單位自己組織的小規(guī)模樣本調(diào)查數(shù)據(jù)。人口學(xué)者善于處理數(shù)據(jù),是因為他們長于開發(fā)匯總數(shù)據(jù),較早使用計算機處理微觀數(shù)據(jù),而且可能處理過體量比較大的數(shù)據(jù)。但這些數(shù)據(jù)結(jié)構(gòu)通常很簡單,變量也不太多。另外,他們中真正接觸到超大規(guī)模原始業(yè)務(wù)數(shù)據(jù)(樣本量千萬以上的,如戶籍?dāng)?shù)據(jù)、全員人口監(jiān)測數(shù)據(jù)、學(xué)籍?dāng)?shù)據(jù)等)的并不多,很多還需要依賴掌控這些數(shù)據(jù)的業(yè)務(wù)人員進行查詢和匯總??梢哉f,在面對新型大數(shù)據(jù)、異形數(shù)據(jù)時,國內(nèi)人口學(xué)者的實際處理能力可能還有待提高。比方說,新型大數(shù)據(jù)中空間信息和網(wǎng)絡(luò)信息越來越多,國內(nèi)人口學(xué)者對這些新信息的理解和處理能力還比較有限,這部分研究主要還是地理學(xué)專家貢獻的。
人口學(xué)需積極接觸和開發(fā)大數(shù)據(jù)
面對越來越多的基于互聯(lián)網(wǎng)和智能設(shè)備產(chǎn)生的新數(shù)據(jù)、異形數(shù)據(jù),人口學(xué)者能在推動這些大數(shù)據(jù)的應(yīng)用方面有所作為嗎?這些新數(shù)據(jù)對人口學(xué)者回答傳統(tǒng)研究問題有幫助嗎?總之,人口學(xué)者要應(yīng)對大數(shù)據(jù)時代,首先需要弄清楚所謂的大數(shù)據(jù)到底包括哪些數(shù)據(jù),哪些與人口學(xué)關(guān)注的核心變量或問題相關(guān),然后想辦法接觸和開發(fā)這些數(shù)據(jù)。
今天所謂的大數(shù)據(jù)主要有兩類。第一類是政府及公共部門日漸電子化的基礎(chǔ)業(yè)務(wù)數(shù)據(jù)。王廣州將之分為全員人口數(shù)據(jù)和特定人群數(shù)據(jù),如戶籍?dāng)?shù)據(jù),生育登記、死亡登記、醫(yī)療登記數(shù)據(jù),遷移登記數(shù)據(jù)等。以往很多紙質(zhì)版的、分散的內(nèi)容,現(xiàn)在大多都電子化了,且日漸聯(lián)網(wǎng)統(tǒng)一。這些業(yè)務(wù)、臺賬、調(diào)查數(shù)據(jù)包含大量的人口變量信息和社會屬性信息,如果開放使用,能夠幫助人口學(xué)者更好地研究人口的生老病死、遷移流動、行為活動,并且有助于把研究做到很小的區(qū)域范圍內(nèi),突破以往研究精細(xì)度和研究范圍之間的矛盾。王廣州強調(diào)的主要是這類數(shù)據(jù)。但是這些數(shù)據(jù)(包括人口普查樣本數(shù)據(jù))直到現(xiàn)在仍很少向人口學(xué)者開放或僅向部分人開放。這些數(shù)據(jù)已經(jīng)存在了,放在那里貶值,很可惜。相關(guān)部門也認(rèn)識到它們的價值,如果關(guān)聯(lián)串并整合起來,價值會更大。但由于各種非技術(shù)的原因,這些數(shù)據(jù)的開放、整合還很困難。實際上,數(shù)據(jù)采集項目最重要的是數(shù)據(jù)開發(fā),而且越多人使用開發(fā)越好,大家都能從中獲得新知識,也能迫使相關(guān)部門數(shù)據(jù)開發(fā)技術(shù)和數(shù)據(jù)服務(wù)質(zhì)量的提升。
第二類數(shù)據(jù)是來自互聯(lián)網(wǎng)痕跡數(shù)據(jù)、GPS定位或手機信令等便攜智能設(shè)備產(chǎn)生的新數(shù)據(jù)。這些數(shù)據(jù)包含人們更為動態(tài)的時空位置和行為信息,但往往缺乏可以精確匹配的基礎(chǔ)性人口社會信息。通過對這類數(shù)據(jù)的開發(fā),能幫助我們把握一定時空范圍內(nèi)人口的分布和活動情況,提高對人口動態(tài)的把握,但主題往往超出傳統(tǒng)人口學(xué)范圍。目前基于這類數(shù)據(jù)做深入交互分析還比較困難,人口學(xué)者要與其他專業(yè)一起面對這些挑戰(zhàn)。
人口學(xué)者要多接觸和使用這兩類數(shù)據(jù),憑借人口學(xué)現(xiàn)在的專業(yè)理論、技能優(yōu)勢以及與相關(guān)公共部門或商業(yè)機構(gòu)結(jié)成良好的合作關(guān)系,獲得數(shù)據(jù)使用權(quán)限。這意味著我們需要掌握大型數(shù)據(jù)庫的使用方法,以及新型數(shù)據(jù)的信息提取加工方法,如各種異形數(shù)據(jù)和基礎(chǔ)數(shù)據(jù)的匹配方法。包括將手機號、機器識別號匹配身份證信息,從身份證信息提取年齡、性別、戶籍、出生地信息這樣的基本技能,也包括通過電子痕跡數(shù)據(jù)綜合甄別使用者的性別、年齡、職業(yè)、家庭結(jié)構(gòu)、常住地、工作地等標(biāo)簽信息的新方法。隨著企業(yè)數(shù)據(jù)資產(chǎn)意識的增強和公民隱私保護意識的增長,只有占據(jù)有利的分工位置,人口學(xué)者接觸和使用相關(guān)數(shù)據(jù)的機會才會越來越多。比如高穎通過和北京市民政局?jǐn)?shù)據(jù)信息中心合作,利用北京市近年來的婚姻登記數(shù)據(jù)對北京市民婚配模式及其變遷、人口結(jié)構(gòu)及其變遷做出了系列研究,為我們認(rèn)識北京戶籍人口、常住人口的演變規(guī)律提供了非常重要的基礎(chǔ)信息,為進一步作人口調(diào)控與政策調(diào)整提供了依據(jù)。但如何將個人的資源和關(guān)系轉(zhuǎn)變?yōu)檎麄€學(xué)科的優(yōu)勢,仍值得學(xué)術(shù)共同體去探索和討論。
實際操作時,如果從國家層面入手難度較大,可以考慮先和那些先行一步的地區(qū)或部門合作,將研究重心下沉到一定區(qū)域。以往因為地方經(jīng)濟實力不足,數(shù)據(jù)基礎(chǔ)差,很多人口學(xué)者不得不主要利用國家層面的數(shù)據(jù)關(guān)注全國人口問題?,F(xiàn)在,很多地方的經(jīng)濟實力不僅足以支持大規(guī)模數(shù)據(jù)的采集,而且數(shù)據(jù)質(zhì)量和基礎(chǔ)也越來越好。更重要的是,隨著區(qū)域競爭的激烈化,越來越多的地方認(rèn)識到了人口資源和人力資本爭奪的重要性,認(rèn)識到人口問題的異質(zhì)性及其對解決方案的影響,從而為人口學(xué)發(fā)揮作用提供更大的舞臺。
人口學(xué)要強化優(yōu)勢并努力創(chuàng)新
在探索實踐過程中,人口學(xué)如何展現(xiàn)學(xué)科優(yōu)勢呢?筆者認(rèn)為,核心是圍繞大數(shù)據(jù)的開發(fā)使用積極創(chuàng)造條件。一是嘗試提供權(quán)威性的基礎(chǔ)數(shù)據(jù)用于大數(shù)據(jù)校準(zhǔn);二是將成熟的人口學(xué)理論和方法介紹到新數(shù)據(jù)的開發(fā)使用中。通過利用現(xiàn)有基礎(chǔ)數(shù)據(jù),生產(chǎn)一些權(quán)威性的基礎(chǔ)數(shù)據(jù)和匯總指標(biāo),幫助校準(zhǔn)大數(shù)據(jù)統(tǒng)計結(jié)果,促進新數(shù)據(jù)的使用和開發(fā)。百度慧眼就利用基礎(chǔ)戶籍?dāng)?shù)據(jù)或登記數(shù)據(jù)對基于地圖定位請求數(shù)據(jù)估計的寧波和杭州灣地區(qū)小范圍人口規(guī)模進行了校準(zhǔn),從而綜合判斷新數(shù)據(jù)的代表性和精確度,為新數(shù)據(jù)的開發(fā)使用提供了依據(jù)。
在理論和技術(shù)方面,人口學(xué)多年發(fā)展積累了很多非常成熟的方法和技術(shù),例如隊列分析技術(shù)、標(biāo)準(zhǔn)化技術(shù)、生命表技術(shù)、間接估計方法、隨機人口模型、事件史技術(shù)、人口預(yù)測技術(shù)等等。這些模型和技術(shù)有著深厚的學(xué)科積累,懂計算機技術(shù)的人不一定都搞得懂。研究中該如何選擇測量或匯總指標(biāo)、確定模型、設(shè)定參數(shù)等,可能都需要一定的人口學(xué)基礎(chǔ)作為指導(dǎo)。人口學(xué)者應(yīng)該積極將既有理論工具和方法應(yīng)用于指導(dǎo)新數(shù)據(jù)的開發(fā),讓其他人特別是數(shù)據(jù)掌控者知道人口學(xué)專業(yè)的價值,并在數(shù)據(jù)分析實踐中逐漸提高學(xué)科的相關(guān)技能。
最后,人口學(xué)者在積極接觸和探索大數(shù)據(jù)時,應(yīng)該有創(chuàng)新思維。盡管目前能夠獲得的大數(shù)據(jù)、新數(shù)據(jù)在代表性、微觀準(zhǔn)確性上有所不足,但通常具有很好的時效性和較大的樣本基數(shù),在區(qū)域或人群匯總指標(biāo)上具有較好的效度和信度。我們應(yīng)該充分利用這些匯總信息,善于利用相對指標(biāo)分析總體的結(jié)構(gòu)特征及其變遷。例如,在傳統(tǒng)人口數(shù)據(jù)中,空間數(shù)據(jù)較難得,了解人口的空間分布很難?,F(xiàn)在,手機和智能設(shè)備可提供非常準(zhǔn)確的人口位置信息,幫助我們更好地估計部分人口的空間分布、變動,特定空間內(nèi)的人口構(gòu)成等。但并非所有人都使用手機和智能設(shè)備,它提供的信息可能存在結(jié)構(gòu)性偏差(如對老年人、小孩的情況反映不足),但仍是重要的參考。通過一定校準(zhǔn),準(zhǔn)確度可進一步提高。這就需要人口學(xué)者掌握相關(guān)的分析和校準(zhǔn)技術(shù)。以往人口學(xué)傾向于在個人層面上進行分析(生育、死亡、遷移),因為只有個人才有年齡、性別等人口學(xué)特征,但目前在個體層面進行數(shù)據(jù)的匹配、串并還很難。人口學(xué)者可能需要更多地探索在相對中觀或宏觀的研究單位上,人群統(tǒng)計特征與其他匯總屬性之間的關(guān)系。例如,社區(qū)人口規(guī)模、人口密度、人口結(jié)構(gòu)與社區(qū)社會經(jīng)濟形態(tài)以及人口過程如死亡水平、出生水平、遷移狀態(tài)之間的關(guān)系,因為這些新型大數(shù)據(jù)往往更容易在較高層次的研究單位上實現(xiàn)指標(biāo)匯總、匹配和信息串并。這種情況下,如何進行因果推論,如何避免層次謬誤之類的方法論問題也需要研究和回答。
總之,人口學(xué)要想在大數(shù)據(jù)時代有所作為,需直面挑戰(zhàn),積極創(chuàng)造條件。其他學(xué)科也應(yīng)該加強和人口學(xué)者的合作。因為如果主要關(guān)注基本人口社會變量的人口學(xué)者都難以有所作為,其他學(xué)科利用大數(shù)據(jù)做出來的研究,其堅實性和深入性也就值得懷疑。我們要一起推動公共部門和數(shù)據(jù)企業(yè)加強大數(shù)據(jù)的開放、串并和合理合法使用,創(chuàng)新數(shù)據(jù)的開發(fā)使用方式甚至提問題方式。這還有很長的路要走,可先從局部地區(qū)、具體項目做起來,并在學(xué)科內(nèi)外加強共享、交流、學(xué)習(xí),不斷積累,共同進步。