“無論什么歷史年代里,科學的走向取決于我們如何理解科學” — Sandra Harding,《誰的科學?誰的知識?》(1991)
一直以來,對于知識的不安全感和其急切想要掌握終極理論而因自身認識論只能導致對世界認識越發(fā)缺乏的破滅感,深深困擾甚至定義了現(xiàn)代性。新知識和 新認知方法在出現(xiàn)的同時也帶來了新的非知識(nonknowledge),新的不確定因素和謎團?;谕蒲莺涂勺C偽性的科學方法實際上更適合產(chǎn)生問題而不 是解決它們。比如說,愛因斯坦關于空間曲率和量子力學下運動的理論既帶來了新知識,也讓前所未有的新非知識進入我們的想象范圍。
因為理論對于我們世界觀的破壞力和它鞏固這個世界觀的力量一樣大,對于產(chǎn)生知識的集體狂熱同時創(chuàng)造了和這種狂熱程度一般的徒勞感,我們需要在這緊張的氣氛里宣泄——哪怕僅僅只是一個瞬間,我們也希望體驗那種對于某種事物確切把握的感覺。在現(xiàn)代社會里, 大數(shù)據(jù)的出現(xiàn)滿足了大家需要宣泄的心理 。
如名字所示,大數(shù)據(jù)是關于“大”的理論。很多大數(shù)據(jù)的支持者聲稱利用大規(guī)模數(shù)據(jù)庫前所未有的海量信息可以揭示全新的真理。而且大數(shù)據(jù)之“大”也暗示著質的不同: 當數(shù)據(jù)累積到一定數(shù)量時,數(shù)據(jù)變成了大數(shù)據(jù),很多新興的公司和關于大眾市場的社會科學書籍將之稱為“知識的革命” 。因為其不同于一般科學對于信息的簡單收集,大數(shù)據(jù)被吹捧為全新的知識,是社會生活的新啟蒙運動。當然這一切都是因為“大”。
就像其他類似的推理性科學(inferential sciences ),比如演化心理學(evolutionary psychology)和流行神經(jīng)科學(pop-neuroscience),大數(shù)據(jù)可以被用于給任何猜想涂上科學的外衣,并給出一些看似權威的數(shù)字—— 大到可以讓任何說法都像真的一樣。因此, 大數(shù)據(jù)不但在整個工業(yè)界非常流行(它的名字就是“預測性分析”),并且在學術界、企業(yè)或者政府研究里也有大量的擁躉。 大數(shù)據(jù)也促進了“數(shù)據(jù)新聞業(yè)”(data journalism)的崛起, 比如FiveThirtyEight、Vox和其他越來越多的分析網(wǎng)站(explainer sites)的出現(xiàn)。它還轉移了這些行業(yè)的重心,這一切不但是因為它宏偉的認識論斷言,也要歸功于大數(shù)據(jù)研究充足的資金。像 推特(Twitter)最近就公布,它將投資1000萬美金在“社交機器”大數(shù)據(jù)實驗室上。
用“正確的”方法收集足夠的數(shù)據(jù)就可以提供一個客觀的、公正的現(xiàn)實圖景,這種理性主義空想其實是一個我們熟悉的老舊概念: 實證主義 。這種方法是如此理解世界的:只要我們保持價值中立,特別是超然的不帶任何立場,我們就可以認識和解釋這個社會。這個術語來自于奧古斯·孔德 (August Comte)的《實證哲學(Positive Philosophy)》(1830-1842)。在實證主義的意義下,他也重新創(chuàng)造了“社會學”這個詞。當西方社會學開始變成一門學科時(這意味著它擁 有系所,能提供就業(yè)崗位,有很多定期刊物,舉辦學術會議),Emile Durkheim,這個學科的另一個創(chuàng)建者,相信它將可以起到“社會物理學”的功能,為我們描繪一種“社會事實”(social facts)——就像我們進行物理實驗測量一樣。從現(xiàn)在看來,這是一個非常自大的觀點——這門學科目標是為我們的社會生活提供一個宏觀的、普遍的理論;隨 著社會學越來越致力于經(jīng)驗性的數(shù)據(jù)收集,這個觀點也越來越根深蒂固。
一個世紀之后,大部分社會學家重新將這門學科定位于認識社會的復雜性,而不是去探尋一種普世的人類社會解釋。隨著思想的轉變,社會學實證主義也就 被拋棄了。但是大數(shù)據(jù)的到來卻復活了這種社會物理學幻想——一種全新的數(shù)據(jù)驅動技術將用純粹的算術處理能力去描繪這種“社會事實”。
因為實證主義許諾的回報太過于誘人了,所以即使其流行度時高時低,但卻從未絕跡。這個簡單道理幻想的魔力——我們將可以站在超越各種可能將社會撕 裂的權力和議程分歧之上看這個世界——實在是太強大,太有“錢途”了。其實如何令人信服地宣傳自己構建的社會模型是準確的,和如何成功推銷任何東西(從一 個政治立場,一個產(chǎn)品,到自己的權威性)是一樣的。雖然大數(shù)據(jù)被包裝成一種等價于權力的知識,實際上,卻依賴于早已存在的力量將其數(shù)據(jù)等同化為知識。
并非所有的數(shù)據(jù)科學都是關于大數(shù)據(jù)的 。如同其他研究領域一樣,數(shù)據(jù)科學實踐者們的道德高低、意圖、謙遜程度,以及對于自身方法論局限性的認識程度是千差萬別的。在此批評“大數(shù)據(jù)”(的所謂客 觀性、公正性)對于主流文化思想的滲透,并不是說所有的數(shù)據(jù)研究都是沒有價值的。(比如說,新的數(shù)據(jù)與社會研究所( Data & Society Research Institute)采取新的測量方法于大數(shù)據(jù)組研究上。這是可取的。)但是數(shù)據(jù)科學的實證主義傾向——它的客觀性傳說和政治中立性——比其他研究都更加 明顯。這些趨勢很有可能將數(shù)據(jù)科學轉變成為一種合理化技術工業(yè)方法在生產(chǎn)設計和數(shù)據(jù)收集上的意識形態(tài)工具。
我們 不能脫離數(shù)據(jù)科學和大眾媒體公司之間強大的紐帶關系來理解大數(shù)據(jù)研究 。這是 大數(shù)據(jù)那居高臨下的無處視角意識形態(tài)(view-from-nowhere ideology)最為清晰的地方;也是算法,數(shù)據(jù)庫,和風險資本相結合的地方?!acebook研究組是現(xiàn)在聲名狼藉的情緒操縱研究(這個研究因其過于寬松的倫理標準和智力上的傲慢而廣受譴責)的幕后黑手,絕非偶然。(其中一個研究者認為大數(shù)據(jù)的潛能和顯微鏡的發(fā)明相當。)
同樣浸淫著大數(shù)據(jù)幻想的還有一本叫做《數(shù)據(jù)災難》(Dataclysm)的書。這本書集合了OkCupid主席Christian Rudder早先在博客上發(fā)表的對于他的服務器所記錄的各種異常數(shù)據(jù)的觀察。Rudder由此宣稱“我們將要步入人類溝通研究的重大變革”。他的字里行間 里同樣充滿了Facebook研究組那種傲慢?!稊?shù)據(jù)災難》的副標題是“我們是誰(當我們認為沒有人在注意我們的時候)”。自鳴得意地認為當收集到足夠的 數(shù)據(jù),我們將可以見到超越研究人員甚至是研究對象主觀性的不為人知的(丑惡)事實—— 大數(shù)據(jù)可以揭示即使是親身體驗的人也不知道的人類社交性和欲望。
因為像在OkCupid這種平臺上收集數(shù)字數(shù)據(jù)——所有界面被動地記錄各種關于用戶行為的信息——是自動進行的。按照復雜的先驗理論來說,這似乎 是不偏不倚的。數(shù)字,就像Rudder在書里不斷提到的,不會跑掉,就在原處等著大家去使用它們得到自己想要的結論。的確,因為數(shù)據(jù)數(shù)量很大,它們反映了 很多“事實”。根據(jù)OkCupid上所有關于用戶愛情,性和美的數(shù)據(jù),Rudder聲稱他可以“道破現(xiàn)在仍不為人知的空虛與脆弱”。
對于Rudder和其他科技公司的新實證主義者來說, 大數(shù)據(jù)總是站在更大數(shù)據(jù)的陰影之下。 他們總是假設因為人們可以在今天收集到比昨天更多的數(shù)據(jù),那么明天必然收集到比今天更多的數(shù)據(jù)。這是一種會將我們推向無限接近于“純粹”數(shù)據(jù)形式的擴張: 終有一天,我們每天的活動將以數(shù)據(jù)的形式被記錄;由此,我們可以從中得到一種是我們能掌握一切事情因果的方法。在Rudder的書里,他不厭其煩地指出他 所擁有的數(shù)據(jù)的規(guī)模,力量和無限潛能,讓讀者們深深明白這些數(shù)據(jù)是如何越來越“大”的。這種根深蒂固的實證主義幻想——我們將會在不久的將來完全解釋這個 宇宙——使得采取侵犯隱私式的數(shù)據(jù)收集方式變成一種道德權利。
但是為什么Rudder會如此深信他擁有的數(shù)據(jù)會有探究事實的能力,并且認為他無視現(xiàn)有的研究者倫理準則是正當?shù)?,關鍵還在于他相信通過被動收集 得到的數(shù)據(jù)完全排除了研究者偏見。在Rudder和其他認為可以在沒得到對方許可的情況下對其進行人數(shù)字化人體實驗的新實證主義者看來,輪詢 (polling)和其他現(xiàn)有的收集大規(guī)模數(shù)據(jù)的方法的問題在于,它們是產(chǎn)生測量誤差的來源。任何受到過足夠訓練的社會科學家都會承認,一個問題如何措 詞,由誰提問,都會影響整個調查問卷的效果。Rudder相信,利用大數(shù)據(jù)我們可以將數(shù)據(jù)收集過程中遇到的種種問題通通解決而得到更加真實的結果。例如, 現(xiàn)在只要從Google搜索里收集數(shù)據(jù)就可以得到想要的結果,再也不需要研究者對研究對象進行任何形式的詢問了。Rudder是這么形容的“不需要問題, 也不需要開口問,答案自然就有”。
這是為什么Rudder相信他不需要提前得到他網(wǎng)站用戶的許可,就可以人為地操縱用戶的配對比例,又或者是從某些網(wǎng)絡互動中移除用戶的照片。為了盡可能獲得不受“污染的”數(shù)據(jù),用戶是不能被詢問是否同意授權的,因為他們不能知道自己身處在實驗室之中。
當調查研究領域幾乎將重點放在對自身方法局限性的理解和表達時,Rudder卻選擇忽略它們來應對大數(shù)據(jù)工作過程中可能(這種可能性是非常大的, 甚至大于常規(guī)方法)遇到的系統(tǒng)性測量錯誤。他辯解到“有些時候,計算機運用盲算法(blind algorithm)去觀察數(shù)據(jù)。”然而OkCupid收集數(shù)據(jù)的方法卻讓Rudder的說法大打折扣:OkCupid的政策和程序員們對于特定的文化理 解決定了如何收集數(shù)據(jù)。大數(shù)據(jù)實證主義短視地認為只要是計算機被動收到的數(shù)據(jù)就是客觀的。但是計算機自己是記不住任何東西的,記住的是人。
這種對計算機如何工作的幼稚觀點和人們早期對攝影的觀點差不多;當時人們認為這種新技術預示著我們人類視覺將會被我們創(chuàng)造的可以觀察到我們自身觀 察不到的照相機所取代。這其中最出名的例子是Eadweard Muybridge的“飛奔的馬”攝影系列展覽。但是與此同時,Shawn Michelle Smith在他的《在視線的邊緣:攝影與不可見》(At the Edge of Sight: Photography and the Unseen)里解釋到,在早期攝影里,攝影師常常將自己對種族、性別和性特定的和不為人知的理解添加進自己的照片里。這所謂的超越人類視覺的視覺實際上 不過充滿了各種文化上的有色眼鏡——而這正是人們宣稱通過攝影可以避免的。
其他社交媒體平臺也同樣充斥著這些東西 :如何設計這些網(wǎng)站,收集什么樣的數(shù)據(jù),如何收集這些數(shù)據(jù),如何整理和儲存數(shù)據(jù),如何查詢數(shù)據(jù),為什么這些數(shù)據(jù)充斥著政治、利益和不安全感。社會科學研究 人員從他們學生時期開始就一直受到這樣的訓練:如何辨認使用什么方法,并采用相應的技巧降低或者至少是表達出結果中存在的偏差。與此同時,Rudder卻 對這些方法指導新手們(first-year methods instructor)一個驚天的消息,“只要你使用正確的分析方法使手頭上數(shù)據(jù)組的魯棒性足夠大,你根本不需要對數(shù)據(jù)提出問題,數(shù)據(jù)就會告訴你任何東 西”。
Evelyn Fox Keller在《反思性別與科學》(Reflections on Gender and Science)書中描述實證主義如何通過將研究人員與數(shù)據(jù)區(qū)分開來實現(xiàn)客觀性和中立性。大數(shù)據(jù),正如Rudder一直急切主張的,包含了這種區(qū)分。這也 引向了或許是大數(shù)據(jù)隱含的意識形態(tài)里最危險的后果:研究對文化中種族、性別、性有重大影響的研究者們將會拒絕承認他們是如何將未闡明甚至是無意識的理論, 自己特定的社會立場來夾雜進自己研究里。這重蹈了它們之前存在的偏見,并且同時用這些數(shù)據(jù)是客觀性正確的說法隱藏了起來。
通過將探究真理的能力從研究人員身上轉移到不言而喻的數(shù)據(jù)上,大數(shù)據(jù)含蓄地鼓勵研究人員無視概念性框架,諸如交集性 (intersectionality)或者關于社會分類這樣的概念可能會不利于而不是加強我們的理解的討論。并且我們沒有理由相信那些掌握著大數(shù)據(jù)的人 們(通常是科技公司里的人員和他們所附屬的研究人員)完全不受偏見影響。他們,像其他人一樣,有著對這個社會特定的偏好——知道什么樣的數(shù)據(jù)可以解釋什么 樣的現(xiàn)象,也知道數(shù)據(jù)應該如何被使用去解釋。正如Danah Boyd 和Kate Crawford在《大數(shù)據(jù)的關鍵問題》(Critical Questions for Big Data)里指出的“不管數(shù)據(jù)的規(guī)模如何,大數(shù)據(jù)總會受制于其自身局限性和人的偏見。如果沒有正確理解并且總結這些偏見和局限性,我們得到的只能是某種曲 解”。
這種短視使得Rudder寫下這樣的東西,“對于性別差異研究最理想的數(shù)據(jù)來源不是那些表面上用戶性別不相干的地方,而是在那些用戶性別是男是女 無所謂的地方。我選推特(Twitter)做為最理想的試驗地。”,完全無視不同性別在推特(Twitter)使用上的差異。縱觀《數(shù)據(jù)災難》 (Dataclysm)全書,盡管Rudder的態(tài)度是他的工作完全與自己的數(shù)據(jù)分開的,他的政策卻是一直在干預它們:不但在他自己提及大腦科學和演化心 理學的解說里,也體現(xiàn)在他如何挑選測量變量和如何將它們安排在自己的分析上。
在一個因為種族、階級、性別和其他重要因素而分化的社會里,知識怎么可能是中立客觀的?正當前《連線》雜志主編Chris Anderson在文章里宣告感謝大數(shù)據(jù)“終結了理論”的時候,Kate Crawford、Kate Miltner和Mary Gray就在開始糾正大家的觀點了——大數(shù)據(jù)本身就是理論!大數(shù)據(jù)的支持者只是沒有意識到而已!
實證主義已經(jīng)出現(xiàn)很長一段時間了,對它的批評從一開始就存在。一些研究方法論者認為Sandra Harding的《誰的科學?誰的知識?》主張一種新的“強有力的”客觀性。這種客觀性將包括研究者的社會立場在內的因素看做一種特色,而非是一種缺陷; 這樣就允許了觀點多樣性的存在,而不是一味地追求那種錯誤的自認為中立的觀點(false view from nowhere)。Patricia Hill Collins在《黑人女性思想》里提到,“偏袒和非普世性是一種需要被傾聽的狀態(tài)”。
大數(shù)據(jù)卻采取了另一種方法。非但不承認方法論中的偏袒性,它的辯護者還使用了一些新的伎倆去粉飾傳說中的普世客觀性。為了逃避對于立場的追問,他 們靠犧牲研究人員來吹捧大數(shù)據(jù)。通過對測量者和研究者專業(yè)水平的貶低(Rudder在書中不斷提及自己低劣的統(tǒng)計學水平),大數(shù)據(jù)的支持者狡猾地將權威性 的來源轉移到大數(shù)據(jù)身上。如此,探討真理的能力再也不與分析方法相關,而單純地取決于接觸到數(shù)據(jù)的數(shù)量和質量。
實證主義幻想有賴于接觸數(shù)據(jù)的機會的不公平性。為什么科學可以如此長久以來將自己標榜為道德的和政治中立的?因為擁有看穿它本質能力的人在人群中 的比例分配得太不合理了。隨著越來越多人從不同文化觀點進行科學實踐,先前科學內在的政治偏見就不斷被暴露出來?,F(xiàn)在越來越多人接受了優(yōu)質的教育,研究人 員也采納了更加先進的研究方法,實證主義者已經(jīng)不能再為他們的實證主義幻想編造依據(jù)了。
然而,大數(shù)據(jù)的文化意識形態(tài)嘗試逆轉這個形勢:將權威性(或多或少地)從大眾化研究專業(yè)知識轉移到只有少數(shù)人可以獲得的專有的、受到控制的數(shù)據(jù) 上。(Molly Osberg在她為The Verge網(wǎng)絡媒體所寫的《數(shù)據(jù)災難》的書評里指出,Rudder是如何解釋他如何通過個人關系從其他技術公司的行政人員身上獲取大部分信息的)當數(shù)據(jù)被 稱贊它可以自然而然地反映事實,研究人員應該降低他們自己的方法在研究中的重要性的時候,我們應該這么理解:這是一種使接觸數(shù)據(jù)的權限變得更加值錢,更加 稀罕的努力。當然,宣傳這些數(shù)據(jù)是如此有價值,如此有權威性的人,通常也是擁有這些數(shù)據(jù)并且靠販賣獲取數(shù)據(jù)權限賺錢的人。
數(shù)據(jù)科學不一定要成一種精英式的實踐。我們應該尋找一種更好理解的并且可以忍受大數(shù)據(jù)的“小”(因為這強調了我們瞬息萬變的社會生活中有很多錯綜 復雜的事物是沒有辦法反應在數(shù)據(jù)庫的數(shù)據(jù)里的)的大眾化方式處理大數(shù)據(jù)組。我們不能讓實證主義加在大數(shù)據(jù)上的外飾讓我們忽略了它真正有價值的研究潛能。
但是對于大數(shù)據(jù)來說,想要被用于真正改善我們的社會和這個世界,研究者們仍需要與上文所說的那種使我們過度投資、高估大數(shù)據(jù)的文化意識形態(tài)相斗 爭。像《數(shù)據(jù)災難》(Dataclysm)和其他大公司,或者是商業(yè)數(shù)據(jù)科學里的無處視角(view from nowhere),必須脫下它的偽裝,因為那不過是我們所熟悉的一種有缺陷的不公正的立場而已。