不同于自然科學(xué),社會(huì)科學(xué)以人類(lèi)社會(huì)現(xiàn)象為研究對(duì)象,其傳統(tǒng)研究范式在認(rèn)知準(zhǔn)確性方面飽受爭(zhēng)議。然而,大數(shù)據(jù)時(shí)代的到來(lái)為彌補(bǔ)這一缺陷提供了潛在的解決方案。隨著全球新一輪科技革命與產(chǎn)業(yè)變革的加速演進(jìn),數(shù)據(jù)來(lái)源、數(shù)據(jù)處理以及數(shù)據(jù)分析等數(shù)據(jù)相關(guān)技術(shù)發(fā)展迅速,特別是以統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)乃至更為廣泛意義的人工智能為代表的數(shù)據(jù)分析手段,正在帶來(lái)新的認(rèn)知方式,為形成數(shù)據(jù)驅(qū)動(dòng)的社會(huì)科學(xué)研究新范式提供有力支撐。
大數(shù)據(jù)概念特征及內(nèi)涵
大數(shù)據(jù)(Big Data)最早出現(xiàn)于2010年2月英國(guó)《經(jīng)濟(jì)學(xué)人》雜志有關(guān)信息管理的一篇專(zhuān)題報(bào)道。2011年5月,麥肯錫環(huán)球研究院在一份題為“大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力前沿”的報(bào)告中,將大數(shù)據(jù)定義為“大小超出常規(guī)數(shù)據(jù)庫(kù)工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集”。時(shí)下較流行的大數(shù)據(jù)定義是,需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。在維克托·邁爾·舍恩伯格的《大數(shù)據(jù)時(shí)代》一書(shū)中,大數(shù)據(jù)技術(shù)被描述為:不再基于傳統(tǒng)隨機(jī)分析法,而采用所有數(shù)據(jù)進(jìn)行分析的處理模式。海量性(Volume)、實(shí)時(shí)性(Velocity)、多樣性(Variety)和有效性(Volatility)成為大數(shù)據(jù)的典型特征。這也是大數(shù)據(jù)定義中被廣為接受的3V、4V或nV。此外,大數(shù)據(jù)技術(shù)還包括數(shù)據(jù)收集(生產(chǎn))、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)分析及展示等各環(huán)節(jié)所需的專(zhuān)業(yè)知識(shí)和技能。這些多學(xué)科、跨學(xué)科交叉的知識(shí)技能集成在一起,共同構(gòu)成大數(shù)據(jù)技術(shù)體系(或“數(shù)據(jù)科學(xué)”)。
自大數(shù)據(jù)概念被首次提出后,這一技術(shù)已在精準(zhǔn)營(yíng)銷(xiāo)、信息安全、智能制造、語(yǔ)義識(shí)別、文本分析等眾多領(lǐng)域的應(yīng)用中取得豐碩成果。然而,社會(huì)科學(xué)領(lǐng)域的大數(shù)據(jù)應(yīng)用更多停留在概念和模式復(fù)制階段。即便如此,學(xué)者們普遍認(rèn)為,大數(shù)據(jù)的興起為社會(huì)科學(xué)學(xué)科體系的重構(gòu)和研究范式的改變帶來(lái)新機(jī)遇。
有效應(yīng)對(duì)人類(lèi)社會(huì)復(fù)雜適應(yīng)性
事實(shí)上,大數(shù)據(jù)及圍繞大數(shù)據(jù)利用形成的大數(shù)據(jù)技術(shù)體系,為有效應(yīng)對(duì)人類(lèi)社會(huì)活動(dòng)的復(fù)雜適應(yīng)性特征提供了技術(shù)可行性,從而為推動(dòng)社會(huì)科學(xué)借鑒自然科學(xué)成果、形成基于數(shù)據(jù)驅(qū)動(dòng)的社會(huì)科學(xué)研究新范式提供有力支撐。
其一,大數(shù)據(jù)技術(shù)有助于對(duì)社會(huì)科學(xué)現(xiàn)象進(jìn)行系統(tǒng)性?huà)呙?。傳統(tǒng)社會(huì)科學(xué)研究受限于資料收集、信息傳遞以及知識(shí)獲取的技術(shù)性因素,往往不可能對(duì)社會(huì)現(xiàn)象的全貌進(jìn)行系統(tǒng)性定位和描述。其二,大數(shù)據(jù)技術(shù)有助于對(duì)社會(huì)問(wèn)題進(jìn)行動(dòng)態(tài)跟蹤。社會(huì)科學(xué)問(wèn)題往往具有實(shí)時(shí)性和演化性特征,傳統(tǒng)研究方法難以對(duì)促使事物轉(zhuǎn)化的諸多內(nèi)外因素進(jìn)行實(shí)時(shí)跟蹤和反饋,在時(shí)間上滯后于事件的衍生和發(fā)展進(jìn)程。其三,大數(shù)據(jù)技術(shù)有助于對(duì)事物發(fā)生發(fā)展的本質(zhì)動(dòng)因和多元影響因素進(jìn)行系統(tǒng)解析?;陲@著性變量設(shè)定的傳統(tǒng)研究方法,在技術(shù)上無(wú)法對(duì)影響社會(huì)現(xiàn)象的全體要素進(jìn)行資料收集和計(jì)算處理,被忽略要素的顯著影響、顯性突變或累積躍遷效應(yīng),可能導(dǎo)致研究結(jié)果的重大偏差。其四,大數(shù)據(jù)技術(shù)有助于趨近總體數(shù)據(jù)。傳統(tǒng)研究方法往往通過(guò)主觀判斷或科學(xué)抽樣對(duì)資料的代表性和誤差因素進(jìn)行控制,在此基礎(chǔ)上構(gòu)建量化描述、假設(shè)檢驗(yàn)、參數(shù)估計(jì)等一系列方法體系。而大數(shù)據(jù)的總體逼近特征不僅是對(duì)數(shù)據(jù)資源的擴(kuò)展,其理論基礎(chǔ)和技術(shù)構(gòu)架更為社會(huì)科學(xué)發(fā)展提供了結(jié)構(gòu)性變革的可能性。
扭轉(zhuǎn)對(duì)于大數(shù)據(jù)的認(rèn)知偏差
當(dāng)前的大數(shù)據(jù)理論和大數(shù)據(jù)技術(shù)與為社會(huì)科學(xué)復(fù)雜適應(yīng)性提供解決方案的目標(biāo)仍有較大距離,具體存在以下主要障礙。第一,大數(shù)據(jù)名稱(chēng)本身具有一定的誤導(dǎo)性。強(qiáng)調(diào)數(shù)據(jù)之“大”是大數(shù)據(jù)技術(shù)的首要內(nèi)涵。然而,由于存儲(chǔ)和計(jì)算能力的大幅提升,數(shù)據(jù)收集已成為無(wú)明確目標(biāo)的被動(dòng)過(guò)程。這使得資料的價(jià)值密度呈指數(shù)化衰減,冗余數(shù)據(jù)的處理成本不斷飆升,客觀上形成重?cái)?shù)量、輕質(zhì)量的現(xiàn)實(shí)缺陷。第二,大數(shù)據(jù)的有偏性和非一致性。大數(shù)據(jù)技術(shù)針對(duì)特定目標(biāo)被收集起來(lái)的“一手”資料,仍然存在“選擇性偏差”。被動(dòng)性收集的數(shù)據(jù)資料使得大數(shù)據(jù)技術(shù)僅能觀測(cè)和收集行為發(fā)生者的信息。因此,無(wú)法保證數(shù)據(jù)的無(wú)偏性和一致性。第三,重技術(shù)開(kāi)發(fā)輕問(wèn)題解決的傾向。大數(shù)據(jù)技術(shù)始于資料的收集、存儲(chǔ)、傳輸和計(jì)算,目前的應(yīng)用也多在這些領(lǐng)域,更多集中于大數(shù)據(jù)技術(shù)開(kāi)發(fā),而非真正應(yīng)用大數(shù)據(jù)解決實(shí)際問(wèn)題。社會(huì)科學(xué)研究的本質(zhì)是以問(wèn)題為導(dǎo)向,應(yīng)基于現(xiàn)實(shí)問(wèn)題選擇恰當(dāng)?shù)臄?shù)據(jù)和方法,而非生搬硬套大數(shù)據(jù)解決方案。第四,重微觀層面的精準(zhǔn)定位,輕宏觀層面的總量。大數(shù)據(jù)在商業(yè)營(yíng)銷(xiāo)領(lǐng)域的成果,使得人們更多地利用大數(shù)據(jù)對(duì)微觀個(gè)體進(jìn)行精準(zhǔn)定位、狀態(tài)識(shí)別和行為預(yù)測(cè),而社會(huì)科學(xué)的核心仍是對(duì)社會(huì)現(xiàn)象的解析,必須打通微觀基礎(chǔ)與宏觀現(xiàn)實(shí)之間的邏輯關(guān)聯(lián)和傳導(dǎo)機(jī)制。第五,過(guò)分強(qiáng)調(diào)關(guān)系發(fā)現(xiàn),輕視因果分析。這也是制約大數(shù)據(jù)技術(shù)發(fā)揮有效作用的關(guān)鍵問(wèn)題。這一技術(shù)極大提升了收集資料的維度和深度,使得人們可以真正從全局和動(dòng)態(tài)演化的視角審視社會(huì)現(xiàn)象和社會(huì)問(wèn)題。但它排斥傳統(tǒng)研究基于因果關(guān)系建立的研究體系,試圖越過(guò)事物的作用機(jī)理而尋求社會(huì)現(xiàn)象認(rèn)知的解決方案。因此,如果大數(shù)據(jù)技術(shù)不能扭轉(zhuǎn)偏差的認(rèn)知模式,就很難在社會(huì)科學(xué)領(lǐng)域取得突破性進(jìn)展。
推動(dòng)社會(huì)科學(xué)研究智能化
總體而言,大數(shù)據(jù)時(shí)代的到來(lái)為社會(huì)科學(xué)發(fā)展提供了一個(gè)重要契機(jī)。社會(huì)科學(xué)研究有望突破傳統(tǒng)社會(huì)調(diào)查方法以及數(shù)理模型、推論統(tǒng)計(jì)和計(jì)量建模等傳統(tǒng)量化技術(shù)的限制。然而,社會(huì)科學(xué)發(fā)展不應(yīng)該也不會(huì)完全局限于當(dāng)前大數(shù)據(jù)概念的界定和技術(shù)限定?;谏鐣?huì)理論與社會(huì)現(xiàn)實(shí)問(wèn)題,主動(dòng)挖掘多元基礎(chǔ)數(shù)據(jù),搭建社會(huì)主體間的聯(lián)系網(wǎng)絡(luò),充分利用人機(jī)結(jié)合的綜合集成模式,溯源社會(huì)現(xiàn)象的本源和邏輯傳導(dǎo)機(jī)制,從而對(duì)社會(huì)科學(xué)研究對(duì)象進(jìn)行精準(zhǔn)量化的結(jié)構(gòu)解析和預(yù)測(cè)推演,使之成為社會(huì)科學(xué)未來(lái)發(fā)展的重要途徑之一,即數(shù)據(jù)驅(qū)動(dòng)的社會(huì)科學(xué)研究新范式。
新范式為突破傳統(tǒng)社會(huì)科學(xué)研究被動(dòng)尋找經(jīng)驗(yàn)證據(jù)的實(shí)證方法、建立搭載在數(shù)據(jù)資源基礎(chǔ)上的主動(dòng)量化提供新的途徑。問(wèn)題導(dǎo)向、數(shù)據(jù)出發(fā)、機(jī)制溯源、綜合集成、量化計(jì)算將是數(shù)據(jù)驅(qū)動(dòng)的社會(huì)科學(xué)研究范式的基礎(chǔ)特征。未來(lái),社會(huì)科學(xué)研究范式將面臨重大變革,但并不會(huì)違背自身的學(xué)術(shù)本源;更多地應(yīng)用大數(shù)據(jù)技術(shù),但不會(huì)摒棄建立在定量統(tǒng)計(jì)方法上的經(jīng)驗(yàn)研究基礎(chǔ);不斷深入而精準(zhǔn)地刻畫(huà)微觀個(gè)體的行為和狀態(tài),但不會(huì)忽略宏觀總量特征和微觀—宏觀一體化的研究途徑;主要采用數(shù)據(jù)計(jì)算和模擬實(shí)驗(yàn)的科學(xué)方法,但仍以人類(lèi)智慧和專(zhuān)業(yè)經(jīng)驗(yàn)為指導(dǎo)。在上述基礎(chǔ)上,社會(huì)科學(xué)將從數(shù)據(jù)實(shí)證應(yīng)用的研究范式逐步向數(shù)據(jù)驅(qū)動(dòng)的研究范式轉(zhuǎn)變。
數(shù)據(jù)作為現(xiàn)代社會(huì)科學(xué)研究的基礎(chǔ)性支撐,不論是多源非結(jié)構(gòu)化大數(shù)據(jù)還是統(tǒng)計(jì)抽樣數(shù)據(jù),其核心都是解決與社會(huì)發(fā)展要求相匹配的現(xiàn)實(shí)問(wèn)題。因此,未來(lái)有必要重點(diǎn)關(guān)注以下問(wèn)題。
首先,建立科學(xué)的數(shù)據(jù)資源評(píng)估體系。大數(shù)據(jù)收集模式的創(chuàng)新并不能完全消除數(shù)據(jù)樣本的有偏或非一致。建立在大數(shù)定律和中心極限定理之上的科學(xué)抽樣方法,未來(lái)仍有著無(wú)可替代的適用性。因此,當(dāng)前的首要任務(wù)應(yīng)以社會(huì)問(wèn)題為導(dǎo)向,建立較為系統(tǒng)的數(shù)據(jù)資源(質(zhì)量)評(píng)價(jià)理論和評(píng)價(jià)方法,針對(duì)全域、多元、實(shí)時(shí)的非結(jié)構(gòu)數(shù)據(jù)提出有效性判定標(biāo)準(zhǔn),同時(shí)關(guān)注數(shù)據(jù)科學(xué)的倫理問(wèn)題研究。
其次,解決大數(shù)據(jù)級(jí)別的總量累積問(wèn)題。將微觀非結(jié)構(gòu)數(shù)據(jù)科學(xué)系統(tǒng)地提煉匯總為不同層級(jí)的總量信息,是基于微觀大數(shù)據(jù)解構(gòu)宏觀社會(huì)現(xiàn)象的基礎(chǔ)。數(shù)據(jù)信息的有效提煉在某種程度上也決定著大數(shù)據(jù)技術(shù)能否真正融入社會(huì)科學(xué)的研究體系。
再次,在數(shù)據(jù)分析基礎(chǔ)上提出解決方案。未來(lái)社會(huì)科學(xué)的發(fā)展應(yīng)以多源數(shù)據(jù)為基礎(chǔ),通過(guò)智能計(jì)算和專(zhuān)家智慧的結(jié)合,對(duì)社會(huì)現(xiàn)象進(jìn)行量化解析,對(duì)社會(huì)問(wèn)題提出科學(xué)治理體系和模式,最終建立社會(huì)科學(xué)“類(lèi)工程化處置”的研究機(jī)制和范式。
最后,注重邏輯因果機(jī)制和機(jī)理的發(fā)現(xiàn)。大數(shù)據(jù)研究不能片面地關(guān)注相關(guān)性,更應(yīng)注重對(duì)社會(huì)現(xiàn)象的本質(zhì)動(dòng)因進(jìn)行發(fā)掘,科學(xué)回答“是什么”“為什么”的基本命題。因此,有必要利用多元化實(shí)時(shí)數(shù)據(jù)的關(guān)聯(lián)性?xún)?yōu)勢(shì),準(zhǔn)確厘清社會(huì)現(xiàn)象的因果機(jī)制,挖掘社會(huì)問(wèn)題的邏輯機(jī)理,形成真正科學(xué)有效的治理方法和途徑,進(jìn)而形成智能化的社會(huì)科學(xué)研究工具和平臺(tái)。