我準(zhǔn)備與大家討論三個(gè)問(wèn)題:第一,什么是大數(shù)據(jù)。關(guān)于大數(shù)據(jù)大家說(shuō)的很多,但是其中錯(cuò)誤概念也非常多,我想從我的角度來(lái)給澄清一下大數(shù)據(jù)是什么。第二,大數(shù)據(jù)和社會(huì)學(xué)研究到底有沒(méi)有關(guān)系。相信這也是大家比較關(guān)心的議題。第三個(gè),大數(shù)據(jù)對(duì)社會(huì)學(xué)研究帶來(lái)了什么挑戰(zhàn)。大數(shù)據(jù)給當(dāng)今社會(huì)帶來(lái)的挑戰(zhàn)非常多,但對(duì)社會(huì)學(xué)研究而言,到底有什么樣的挑戰(zhàn)呢?我自己有三點(diǎn)看法與各位分享。首先,我們來(lái)看一下什么是大數(shù)據(jù)。
1.什么是大數(shù)據(jù)?
大數(shù)據(jù)是痕跡數(shù)據(jù)匯集的并行化、在線化、生活化和社會(huì)化。
對(duì)社會(huì)學(xué)研究,我們最熟悉的是社會(huì)活動(dòng),我稱(chēng)其為人類(lèi)活動(dòng)。其實(shí)今天,不僅僅社會(huì)活動(dòng),你的私密活動(dòng)也在數(shù)據(jù)之中,我沒(méi)有加“社會(huì)”兩個(gè)字,道理就在于人類(lèi)的活動(dòng)都在慢慢地?cái)?shù)據(jù)化。在人類(lèi)活動(dòng)中,有一個(gè)概念叫做造痕,考古挖掘的,就是人類(lèi)社會(huì)生活留下的痕跡。過(guò)去,我們通常拿這些痕跡做證據(jù),比如考古學(xué)、歷史學(xué)和社會(huì)學(xué)的許多研究活動(dòng)。這些證據(jù)有一些會(huì)被數(shù)據(jù)化,數(shù)據(jù)化了的證據(jù)就叫做數(shù)據(jù)。
既然很早以前就有“數(shù)據(jù)”,今天怎么就出來(lái)一個(gè)大數(shù)據(jù)呢?一個(gè)非常重要的因素,就是網(wǎng)絡(luò)化匯集和網(wǎng)絡(luò)化存儲(chǔ),把過(guò)去的數(shù)據(jù)集中起來(lái),這才構(gòu)成了大家討論的大數(shù)據(jù)。
那么,什么叫大數(shù)據(jù)?麥肯錫從行業(yè)和業(yè)務(wù)價(jià)值鏈的角度給了一個(gè)定義:數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘與運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。麥肯錫認(rèn)為,大數(shù)據(jù)將是一個(gè)生產(chǎn)力的來(lái)源。今天,我們?cè)谥v“互聯(lián)網(wǎng)+”,背后有一個(gè)非常重要的概念,叫數(shù)據(jù)驅(qū)動(dòng)。過(guò)去,我們的研究活動(dòng)叫理論驅(qū)動(dòng),今天,數(shù)據(jù)驅(qū)動(dòng)已經(jīng)變成了人類(lèi)社會(huì)研究中非常重要的概念。
“大數(shù)據(jù)”概念最早從哪里來(lái)呢?沒(méi)有確切的證據(jù),但是IBM很早就開(kāi)始談大數(shù)據(jù)了。IBM給大數(shù)據(jù)的定義是“4個(gè)V”:數(shù)量(Volume)、形態(tài)(Variety)、價(jià)值(Value)、速度(Velocity)。這是從數(shù)據(jù)本身做的定義。
沿著IBM提出的“4個(gè)V”,先做一個(gè)簡(jiǎn)單的說(shuō)明和解釋。首先,從數(shù)量來(lái)看,大數(shù)據(jù)的數(shù)據(jù)量已經(jīng)超出了任何個(gè)人在可接受時(shí)間范圍內(nèi)搜集、利用、管理和處理數(shù)據(jù)的能力了。2012年,對(duì)數(shù)據(jù)的計(jì)量已經(jīng)從MB級(jí)躍升到TB級(jí)了?,F(xiàn)在講大數(shù)據(jù),基本都是在PB級(jí)及以上。這個(gè)量級(jí),超出任何單部計(jì)算機(jī)乃至大型機(jī)的處理能力。
其次,從數(shù)據(jù)形態(tài)來(lái)看,傳統(tǒng)的數(shù)據(jù),通常是結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)則是混合形態(tài)的數(shù)據(jù)。在大數(shù)據(jù)中,有一部分是結(jié)構(gòu)化的數(shù)據(jù),如SQL(結(jié)構(gòu)化查詢(xún)語(yǔ)言)數(shù)據(jù),更多的則是非結(jié)構(gòu)化的數(shù)據(jù),如日志、音頻、視頻、圖片和地理位置等數(shù)據(jù),大都是非結(jié)構(gòu)化的。
第三,從商業(yè)領(lǐng)域來(lái)看,大數(shù)據(jù)的價(jià)值密度比較低。傳統(tǒng)的數(shù)據(jù),通常是目標(biāo)導(dǎo)向數(shù)據(jù),有非常明確的價(jià)值,比如說(shuō)CFPS(中國(guó)家庭動(dòng)態(tài)跟蹤調(diào)查)。大數(shù)據(jù)則是記錄導(dǎo)向的,是為了記錄數(shù)據(jù)而不是為了得到某個(gè)特定事件的數(shù)據(jù),不是為了解釋某個(gè)事件而記錄數(shù)據(jù)。這是數(shù)據(jù)獲取方式上非常重要的變化。
大數(shù)據(jù)第四個(gè)重要特征是速度。傳統(tǒng)的數(shù)據(jù),從測(cè)量到可用,需要相當(dāng)長(zhǎng)的時(shí)間,赫爾曼 霍爾瑞斯在統(tǒng)計(jì)1890年人口普查數(shù)據(jù)時(shí),發(fā)明了讀卡機(jī),用1年的時(shí)間完成了原本耗時(shí)8年的人口普查活動(dòng);CFPS從調(diào)查結(jié)束到數(shù)據(jù)可用,也需要1-2年的時(shí)間。大數(shù)據(jù) ,幾乎隨時(shí)可用,每時(shí)每刻都在記錄數(shù)據(jù),每時(shí)每刻這些數(shù)據(jù)也可用;不過(guò),可用,也有一定的約束性。對(duì)研究而言,不是針對(duì)一個(gè)具體研究問(wèn)題可用,而是說(shuō),如果你想研究某個(gè)尚未模型化的問(wèn)題,可以隨時(shí)截一段數(shù)據(jù)來(lái),進(jìn)行數(shù)據(jù)清理的可用。
從社會(huì)研究的視角,我自己給大數(shù)據(jù)一個(gè)定義——大數(shù)據(jù)是痕跡數(shù)據(jù)匯集的并行化、在線化、生活化、社會(huì)化。
數(shù)據(jù)匯集的并行化是一個(gè)計(jì)算機(jī)科學(xué)概念。并行,指可以同時(shí)運(yùn)行很多個(gè)線程。在線化,就是數(shù)據(jù)本身在線上,不在你的桌面計(jì)算機(jī)或移動(dòng)硬盤(pán)中。社會(huì)化,指每個(gè)人都有可能是數(shù)據(jù)的提供者。在過(guò)去,大多數(shù)都是由機(jī)構(gòu)或者個(gè)人找“樣本”提供數(shù)據(jù);但是今天,每個(gè)人,只要接觸傳感器,甚至走在大街上,都是數(shù)據(jù)的提供者,同時(shí),也是數(shù)據(jù)的使用者。生活化,則指數(shù)據(jù)的無(wú)處不在,無(wú)論是工作中還是生活中,數(shù)據(jù)始終伴隨著人們。
簡(jiǎn)單地說(shuō),大數(shù)據(jù),就是形態(tài)數(shù)字化、非結(jié)構(gòu)化、在線流動(dòng)著的數(shù)據(jù),容量至少在PB級(jí)或以上,與社會(huì)行為相伴生、通過(guò)設(shè)備和網(wǎng)絡(luò)匯集的數(shù)據(jù)。大數(shù)據(jù)是完整的,卻不一定是系統(tǒng)的,它無(wú)時(shí)無(wú)刻都在記錄著人類(lèi)的行為。
因此,對(duì)社會(huì)學(xué)研究而言,大數(shù)據(jù)是一種新的研究數(shù)據(jù)來(lái)源,一種永不停息的、流動(dòng)的研究資源,不一定是對(duì)其他來(lái)源數(shù)據(jù)的全面替代。
2.大數(shù)據(jù)和社會(huì)學(xué)研究有關(guān)系嗎?
大數(shù)據(jù)和社會(huì)學(xué)研究關(guān)系密切,對(duì)其應(yīng)用,目前,看起來(lái)似乎沒(méi)那么緊迫,且主要對(duì)實(shí)證社會(huì)學(xué)產(chǎn)生較大的影響,逐漸地就會(huì)影響到社會(huì)學(xué),甚至整個(gè)社會(huì)科學(xué)。
在社會(huì)學(xué)想象力的前提下,我把社會(huì)學(xué)的研究分為三大類(lèi)。
第一類(lèi)——思辨的社會(huì)學(xué),社會(huì)學(xué)的鼻祖?zhèn)?,基本上都采用了思辨的方法在研究社?huì)學(xué)。后來(lái)的,比如說(shuō)帕森斯、福柯、吉登斯等也是。思辯的社會(huì)學(xué),主要采用“概念”工具,而不講求對(duì)概念工具的測(cè)量,這些社會(huì)學(xué)家們,基本不用數(shù)據(jù)。
第二類(lèi)——詮釋的社會(huì)學(xué),從胡塞爾以降到舒茨式的現(xiàn)象學(xué)社會(huì)學(xué)等。這些學(xué)者,主要是圍繞“意義”進(jìn)行研究。對(duì)他們來(lái)說(shuō),現(xiàn)象的代表性或許是沒(méi)有意義的,現(xiàn)象本身卻具有意義。他們的任務(wù),就是闡釋現(xiàn)象的意義。這一類(lèi)社會(huì)學(xué)研究,或許也不用數(shù)據(jù)。
第三類(lèi)——實(shí)證的社會(huì)學(xué),主要源于年鑒學(xué)派,也是社會(huì)學(xué)研究中作品量比較大的一類(lèi)。如果把這一類(lèi)社會(huì)學(xué)與前兩類(lèi)社會(huì)學(xué)做一個(gè)簡(jiǎn)單的區(qū)分,就在于是否使用假設(shè)檢驗(yàn)和經(jīng)驗(yàn)檢驗(yàn)。
目前,數(shù)據(jù)與社會(huì)學(xué)研究關(guān)系最密切的,是第三類(lèi)——實(shí)證的社會(huì)學(xué),實(shí)證社會(huì)學(xué)研究離不開(kāi)數(shù)據(jù)。
實(shí)證社會(huì)學(xué)有一個(gè)發(fā)展的過(guò)程。1998年,Platt對(duì)美國(guó)社會(huì)學(xué)研究做了一個(gè)長(zhǎng)時(shí)段的回顧,發(fā)現(xiàn):1915年-1924年,35%的社會(huì)學(xué)研究文章中用的是個(gè)案,53%用的是統(tǒng)計(jì);到1964年使用統(tǒng)計(jì)方法的研究上升到了76%,尤其是ASR(American Sociological Review)和AJS(American Journal of Sociolog)兩個(gè)主流的刊物。在今天,除非做純粹的社會(huì)理論研究,只要涉及到社會(huì)事實(shí)的文章,似乎都需要用數(shù)據(jù)進(jìn)行檢驗(yàn)。在中國(guó)也一樣,王文韜在 2000年的研究,也證明了中國(guó)社會(huì)學(xué)研究實(shí)證化的趨勢(shì)在迅速加強(qiáng)。
過(guò)去,實(shí)證社會(huì)學(xué)研究的數(shù)據(jù)主要來(lái)自于調(diào)查活動(dòng)。二戰(zhàn)以后,從密西根大學(xué)建立ISR(Institute for Social Research)開(kāi)始,數(shù)據(jù)科學(xué)開(kāi)始慢慢興起。在大數(shù)據(jù)到來(lái)之前,主要有三個(gè)數(shù)據(jù)來(lái)源,分別代表了三種資源來(lái)源和三個(gè)群體的權(quán)力。第一,行政數(shù)據(jù),各國(guó)政府、各級(jí)政府,掌握的各種ID、身份、流動(dòng)、登記、就業(yè)、生產(chǎn)、消費(fèi)等信息;第二,商業(yè)數(shù)據(jù),比如說(shuō)過(guò)去近三百年的金融數(shù)據(jù)、生產(chǎn)交易數(shù)據(jù)、勞動(dòng)工資數(shù)據(jù)等,都在商業(yè)機(jī)構(gòu)手里。直到1930s開(kāi)始,社會(huì)科學(xué)家逐步認(rèn)識(shí)到數(shù)據(jù)的重要性,開(kāi)始尋找數(shù)據(jù)。二戰(zhàn)以后,ISR逐步發(fā)展了一整套依靠學(xué)術(shù)力量獲取數(shù)據(jù)的方法,并建立了覆蓋人類(lèi)社會(huì)、經(jīng)濟(jì)、教育、健康生活的各類(lèi)調(diào)查數(shù)據(jù)。在一定意義上,調(diào)查數(shù)據(jù),成為學(xué)者手中一項(xiàng)資源,也是學(xué)者在社會(huì)中發(fā)出聲音的一種依據(jù)。
由此看來(lái),從社會(huì)學(xué)研究發(fā)展的視角來(lái)看,大數(shù)據(jù)和社會(huì)學(xué)有密切關(guān)系,只是,目前看起來(lái)沖擊似乎并不大,也主要是針對(duì)實(shí)證社會(huì)學(xué)的沖擊。在將來(lái)可能就不是這樣了,對(duì)大數(shù)據(jù)的應(yīng)用不僅對(duì)社會(huì)學(xué)而言會(huì)變得十分緊迫,甚至對(duì)所有社會(huì)科學(xué)而言都將如此。
3.大數(shù)據(jù)給社會(huì)學(xué)帶來(lái)了什么挑戰(zhàn)?
今天,社會(huì)研究依然需要通過(guò)調(diào)查獲取數(shù)據(jù)?;蛟S大數(shù)據(jù)研究的范式重在發(fā)現(xiàn),而不是重在推論。社會(huì)研究的基本目標(biāo)還是要把握事物之間的關(guān)系模式,不過(guò),在大數(shù)據(jù)中,這種把握的技術(shù)變了,需要運(yùn)用數(shù)據(jù)挖掘技術(shù)。不僅如此,大數(shù)據(jù)給帶來(lái)的更大挑戰(zhàn),在于對(duì)整個(gè)教育體制的挑戰(zhàn)。
在大數(shù)據(jù)應(yīng)用日益廣泛的現(xiàn)代社會(huì)中,進(jìn)行社會(huì)研究依然需要調(diào)查數(shù)據(jù)。的確,對(duì)于大數(shù)據(jù)而言,無(wú)需調(diào)查,只需選擇。調(diào)查數(shù)據(jù),是有目的、有假設(shè)地去搜集數(shù)據(jù)。對(duì)于大數(shù)據(jù)而言,沒(méi)有任何人可以做某個(gè)單一的研究假設(shè),也沒(méi)有任何人有能力做普適的研究假設(shè)。正是在這個(gè)意義上,對(duì)大數(shù)據(jù)的分析,重在發(fā)現(xiàn)。而且目前主要是機(jī)構(gòu)性的應(yīng)用,尤其是商業(yè)機(jī)構(gòu),比如阿里巴巴對(duì)大數(shù)據(jù)的應(yīng)用,在世界范圍內(nèi)名列前茅。
如今的學(xué)術(shù)研究,還沒(méi)有運(yùn)用到PB級(jí)數(shù)據(jù)。社會(huì)學(xué)的研究,運(yùn)用的基本上是大數(shù)據(jù)中的數(shù)據(jù),訪員不再向調(diào)查對(duì)象去搜集數(shù)據(jù),而是向數(shù)據(jù)(機(jī)器)搜集數(shù)據(jù)。
2013年,哈佛大學(xué)的G. King教授做了一項(xiàng)研究,從社交媒體獲得數(shù)據(jù)來(lái)看中國(guó)沉默的表達(dá),他從1382個(gè)社交媒體網(wǎng)上,運(yùn)用網(wǎng)絡(luò)爬蟲(chóng)獲取數(shù)據(jù),是大數(shù)據(jù)中的數(shù)據(jù)。
2012年我做的“誰(shuí)在開(kāi)網(wǎng)店?”用的是淘寶600萬(wàn)個(gè)店家數(shù)據(jù)中的1%店家數(shù)據(jù),也是大數(shù)據(jù)中的數(shù)據(jù)。
那么,大數(shù)據(jù)來(lái)自于哪里呢?
大數(shù)據(jù)的第一個(gè)來(lái)源,是傳感器。人類(lèi)社會(huì)的對(duì)傳感器的運(yùn)用,2005年只有1.3億個(gè),到2010年就發(fā)展到了30億個(gè),今天,大概有45億個(gè)。什么叫傳感器呢?廣義地碩,任何可以監(jiān)測(cè)、數(shù)據(jù)化、傳輸?shù)墓ぞ?,都是傳感器,手機(jī)、手環(huán)、大街上的探頭等,都是傳感器。
大數(shù)據(jù)的第二個(gè)來(lái)源,是互聯(lián)網(wǎng)。谷歌每天要處理大約24PB的數(shù)據(jù),百度每天大概新增10TB的數(shù)據(jù)。
大數(shù)據(jù)的第三個(gè)來(lái)源,是社交網(wǎng)絡(luò)。像Facebook每天要處理23TB的數(shù)據(jù),Twitter每天處理7TB ,騰訊每日新增加200-300TB的數(shù)據(jù),中國(guó)電信大概每天也有10TB的話單,30個(gè)TB的上網(wǎng)日制和100TB的信令數(shù)據(jù)。
還有,如金融、零售、科研以及政府等部門(mén)的數(shù)據(jù)。譬如,每個(gè)交易周期,紐約證券交易所要捕獲1TB的交易信息。淘寶每日訂單超過(guò)1000萬(wàn),阿里巴巴已經(jīng)積累的數(shù)據(jù)量超過(guò)100個(gè)PB。
大數(shù)據(jù)給社會(huì)學(xué)研究帶來(lái)的挑戰(zhàn)到底在哪里呢?
大數(shù)據(jù)帶來(lái)的第一個(gè)挑戰(zhàn)就是還要不要調(diào)查數(shù)據(jù)。事實(shí)上,對(duì)調(diào)查數(shù)據(jù)的挑戰(zhàn),取決于對(duì)調(diào)查數(shù)據(jù)的替代程度和擴(kuò)大程度。相對(duì)于大數(shù)據(jù)而言,調(diào)查數(shù)據(jù),就是小數(shù)據(jù)。大數(shù)據(jù)與小數(shù)據(jù)有一個(gè)交集,兩種數(shù)據(jù)交集重疊的部分會(huì)怎么樣增長(zhǎng),取決于兩個(gè)因素,一個(gè)是傳感器技術(shù)的發(fā)展,一是數(shù)據(jù)挖掘的算法技術(shù)的發(fā)展,這兩項(xiàng)技術(shù)未來(lái)的發(fā)展,直接影響到社會(huì)科學(xué)未來(lái)發(fā)展的走向。
對(duì)于調(diào)查數(shù)據(jù)來(lái)說(shuō),比如說(shuō)人口普查,健康調(diào)查之類(lèi)的,這些調(diào)查到底干什么呢?對(duì)個(gè)體研究而言,他研究人的行為、健康、教育、成就、幸福;對(duì)于群體而言,研究群體的行動(dòng),結(jié)構(gòu)和動(dòng)態(tài);對(duì)于社會(huì)而言,研究社會(huì)的狀態(tài)和動(dòng)態(tài),這些研究未來(lái)有沒(méi)有可能用大數(shù)據(jù)來(lái)替代?完全有可能,如果數(shù)據(jù)整合能夠?qū)崿F(xiàn),替代的速度可能還很快!
比如,微信社交網(wǎng),就是人的人情網(wǎng)絡(luò)或人際網(wǎng)絡(luò);淘寶就是生活網(wǎng);還有交通網(wǎng),工作網(wǎng),健康網(wǎng)。大家手腕上戴的智能手環(huán)、手機(jī)、電腦、家用電器等,這些設(shè)備如果互聯(lián)互通,也會(huì)形成巨量的數(shù)據(jù)。用《信息簡(jiǎn)史》一書(shū)中的一句話來(lái)概括:萬(wàn)物皆比特。
數(shù)據(jù)就在那兒,問(wèn)題是怎么用。未來(lái),社會(huì)學(xué)研究對(duì)數(shù)據(jù)的利用,取決于數(shù)據(jù)化覆蓋的范圍。第一個(gè)覆蓋的是教育,在線教育;第二個(gè)是健康,未來(lái)的健康將是完全數(shù)據(jù)化的健康;第三個(gè)是物聯(lián)網(wǎng),所有的器物之間連通、數(shù)據(jù)化;還有硬件、工程、制造、農(nóng)業(yè)、金融等等領(lǐng)域,都將被數(shù)據(jù)化。既然各行各業(yè)都被數(shù)據(jù)化了,那么,大數(shù)據(jù)給社會(huì)學(xué)研究帶來(lái)的第一個(gè)挑戰(zhàn)就是:“社會(huì)研究還需要調(diào)查嗎?”
對(duì)這個(gè)問(wèn)題,我認(rèn)為有兩個(gè)點(diǎn)值得探討——轉(zhuǎn)換和替代。第一個(gè)是轉(zhuǎn)換數(shù)據(jù),第二個(gè)轉(zhuǎn)換思維。數(shù)據(jù)的來(lái)源已經(jīng)完全變了,需要調(diào)查的東西越來(lái)越少。替代,未來(lái)也有可能完全不需要做大規(guī)模調(diào)查,調(diào)查的重要性會(huì)越來(lái)越低,這是一個(gè)大趨勢(shì)。
第二個(gè)挑戰(zhàn),社會(huì)學(xué)研究范式還有用嗎?在《大數(shù)據(jù)時(shí)代》中,作者提到過(guò)去的研究范式是抽樣、精確、因果。作者說(shuō),這三個(gè)過(guò)去我們?yōu)橹^斗的范式可能面臨著革命性的轉(zhuǎn)變。事實(shí)是否如此,現(xiàn)在依然有爭(zhēng)論,至少這是一個(gè)值得認(rèn)真思考的信號(hào)。
我自己有一個(gè)看法,運(yùn)用調(diào)查數(shù)據(jù)做研究,是假設(shè)檢驗(yàn)進(jìn)行推論;運(yùn)用大數(shù)據(jù)做研究,顯然是通過(guò)數(shù)據(jù)進(jìn)行總體歸納;方法上的確是一個(gè)本質(zhì)的轉(zhuǎn)換。我們知道自然科學(xué)用重復(fù)檢驗(yàn),社會(huì)科學(xué)沒(méi)有重復(fù)檢驗(yàn)的條件,只能做假設(shè)檢驗(yàn)。如果數(shù)據(jù)歸納在迭代中能夠滿足重復(fù)檢驗(yàn)的條件,是不是就會(huì)真正地“科學(xué)化”呢?目前,至少有一點(diǎn)是可以肯定的,那就是大數(shù)據(jù)研究的范式重在發(fā)現(xiàn),而不是重在推論,社會(huì)研究的基本目的沒(méi)有變,還是要把握事物之間的關(guān)系模式。
大數(shù)據(jù)的分析是從數(shù)據(jù)挖掘開(kāi)始的,運(yùn)用的是數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘,就是發(fā)現(xiàn)有意義的模式和規(guī)則。挖掘,是大數(shù)據(jù)分析的基本策略,不是具體方法。
大數(shù)據(jù)挖掘有一些基本步驟。首先是屬性歸類(lèi)。歸類(lèi)之后再降維、降低容量。降維、降容之后,就是結(jié)構(gòu)化的數(shù)據(jù)了,跟調(diào)查數(shù)據(jù)差不多,接下來(lái),就是從數(shù)據(jù)中發(fā)現(xiàn)模式。
如此,大數(shù)據(jù)分析至少有4個(gè)步驟:第一,拿到數(shù)據(jù)使用權(quán),;第二,在高性能計(jì)算系統(tǒng)中降維降容;第三,獲取可分析數(shù)據(jù);第四,進(jìn)行分析(模式發(fā)現(xiàn))。
對(duì)社會(huì)學(xué)研究而言,這也是大數(shù)據(jù)分析的基本步驟。