大數(shù)據(jù)技術(shù)對科學方法論的革命

責任編輯:editor004

2014-08-27 11:23:46

摘自:中國社會科學網(wǎng)

從科學方法論上來說,西方科學強調(diào)還原論,除了任何理論,不管有多復雜,都必須能夠還原到邏輯原點之外,各門學科還存在還原關(guān)系。復雜性哲學和科學實踐主義哲學都提出了知識的多樣性和地方性的主張

大數(shù)據(jù),這個原本屬于專業(yè)人員的詞匯,近年來走進了大眾的視野,對我們的工作、生活和思維產(chǎn)生了巨大的影響。[1]大數(shù)據(jù)技術(shù)不但掀起了一場新技術(shù)革命,讓我們的時代迅速進入信息時代,而且對傳統(tǒng)的科學方法論帶來了巨大的挑戰(zhàn),給我們帶來了許多新的科學方法和技術(shù)手段,因此我們有必要從科學方法論的角度反思這場新技術(shù)革命的意義和影響。

一、大數(shù)據(jù)技術(shù)的興起

2013年被稱為中國大數(shù)據(jù)時代的元年。從這一年開始,大數(shù)據(jù)(Big data)這個詞鋪天蓋地出現(xiàn)在各種媒體;有關(guān)大數(shù)據(jù)的圖書迅速出版且發(fā)行量巨大,而大數(shù)據(jù)的富豪們,如百度的李彥宏、騰訊的馬化騰、阿里的馬云等,更是成了家喻戶曉的神話般的數(shù)字財富人物。

如今,大數(shù)據(jù)徹底地改變了我們的工作和生活方式。對一般老百姓來說,大數(shù)據(jù)的最大影響莫過于網(wǎng)購。曾幾何時,我們購物就必須上百貨大樓,但是現(xiàn)在許多人都喜歡網(wǎng)上淘寶購物,讀書人不逛書店逛網(wǎng)店,因此造就了淘寶、亞馬遜、當當?shù)戎馁徫锞W(wǎng)站,帶來了實體店的迅速衰亡。印象最深刻的莫過于近兩年的11月11日所謂“光棍節(jié)”,網(wǎng)民們個個瘋狂購物,一天網(wǎng)購數(shù)百億元,真正達到瘋狂的程度。對有一點年紀的讀書人來說印象深刻的是文獻資料搜索查詢的艱難。當時全靠手工查卡片等原始方式來尋找自己所需的文獻資料,雖然歷盡艱難仍然掛一漏萬。但如今的Google、百度等網(wǎng)絡搜索工具讓我們在數(shù)秒鐘之內(nèi)將世界上所有相關(guān)文獻一網(wǎng)打盡。對現(xiàn)在的讀書人來說,我們不缺少文獻資料,只怕缺少獨到的思想。此外,只是一兩年的功夫,智能手機就迅速取代以往只能打電話發(fā)短信的傳統(tǒng)手機,手機迅速變成了無所不能的智能工具,成了我們不可或缺的隨身伴侶。從這些事例中,我們不難感受到無孔不入的網(wǎng)絡以及背后的大數(shù)據(jù)技術(shù)對我們的影響。我們可以毫不夸張地說,大數(shù)據(jù)時代正以迅雷不及掩耳之勢來到了我們的面前。不管是否情愿,我們都已經(jīng)迅速地跨入了大數(shù)據(jù)時代。

大數(shù)據(jù)時代似乎來得特別迅猛,以至于我們似乎毫無思想準備。其實,大數(shù)據(jù)時代的征兆早已經(jīng)有了諸多的表現(xiàn)。1980年代初,美國未來學家阿爾文·托夫勒在《第三次浪潮》,丹尼爾·貝爾在《后工業(yè)社會的來臨》中宣布人類即將從工業(yè)社會進入信息社會。[2]1990年代,微軟總裁比爾·蓋茨在《未來之路》詳細描述了信息社會的藍圖,尼葛洛龐帝則在其《數(shù)字化生存》中描繪了信息時代的生活方式,當時的美國總統(tǒng)比爾·克林頓則提出了《信息高速公路》計劃,將學者們的設想變成了國家政策。興起于20世紀末的復雜性科學則從科學思維和方法上為目前大數(shù)據(jù)時代的來臨奠定了堅實的科學基礎。進入21世紀互聯(lián)網(wǎng)的普及和智能設備的風行為大數(shù)據(jù)時代的來臨準備了物質(zhì)基礎,而電子商務的興起則為大數(shù)據(jù)時代的來臨進行了前期的嘗試。因此,人類如今進入大數(shù)據(jù)時代是一種必然。當全球知名的咨詢公司麥肯錫于2012年初正式提出大數(shù)據(jù)的概念和框架時,立即得到了世界各國的響應,并由此掀起了一場大數(shù)據(jù)風暴。

究竟什么是大數(shù)據(jù)?目前國內(nèi)外都還沒有統(tǒng)一的定義或認識。從狹義的字面來理解的話,它應該與小數(shù)據(jù)相對應,意指數(shù)據(jù)量特別巨大,超出了我們常規(guī)的處理能力,必須引入新的科學工具和技術(shù)手段才能夠進行處理的數(shù)據(jù)集合。[3]所謂的小數(shù)據(jù)指的是數(shù)據(jù)規(guī)模比較小,用我們的傳統(tǒng)工具和方法足以進行處理的數(shù)據(jù)集合。比如牛頓時代的各門自然科學,其數(shù)據(jù)量都不大,第谷觀測了20年的天文數(shù)據(jù),開普勒很快用手工就處理完畢,并從中發(fā)現(xiàn)了開普勒定律。后來,隨著科學的發(fā)展,數(shù)據(jù)量有了比較大的增加,為了處理這些當時看來的“大數(shù)據(jù)”,統(tǒng)計學家創(chuàng)造了抽樣方法,由此解決了數(shù)據(jù)處理難題。現(xiàn)在的大數(shù)據(jù)卻是所謂的海量數(shù)據(jù),各種數(shù)據(jù)的差別又特別巨大,用抽樣方法也難于處理,只能用現(xiàn)在的數(shù)據(jù)挖掘和云計算、云存儲等新技術(shù)才能解決。從廣義來說,大數(shù)據(jù)指的是一種新的數(shù)據(jù)世界觀,它將世界上的一切事物都看作是由數(shù)據(jù)構(gòu)成的,一切皆可“量化”,都可以用編碼數(shù)據(jù)來表示。這就是舍恩伯格所說的:“大數(shù)據(jù)是人們獲得新認知、創(chuàng)造新價值的源泉;大數(shù)據(jù)還是改變市場、組織機構(gòu),以及政府與公民關(guān)系的方法。”

大數(shù)據(jù)的特點被人總結(jié)為4個“V”:[5]第一,Volume(大量),即數(shù)據(jù)數(shù)量巨大。從TB級別,躍升到PB級別。第二,Variety(多樣),即數(shù)據(jù)類型繁多。除了標準化的結(jié)構(gòu)化編碼數(shù)據(jù)之外,還包括網(wǎng)絡日志、視頻、圖片、地理位置信息等等非結(jié)構(gòu)化或無結(jié)構(gòu)數(shù)據(jù)。第三,Value(價值),即商業(yè)價值高,但價值密度低。在數(shù)據(jù)的海洋中不斷尋找,才能掏出一些有價值的東西,可謂“沙里淘金”。第四,Velocity(高速),即處理速度快,實時在線。各種數(shù)據(jù)基本上實時、在線,并能夠進行快速的處理、傳送和存儲,以便全面反映對象的當下狀況。

大數(shù)據(jù)技術(shù)與傳統(tǒng)的小數(shù)據(jù)技術(shù)有著本質(zhì)的差別,它是一場新的技術(shù)革命,是上世紀末所說的信息革命的真正來臨,也是上世紀末復雜性科學革命的技術(shù)實現(xiàn)??茖W革命更多地局限于思想界、學術(shù)界,而技術(shù)革命則更加深入和具體,影響范圍幾乎遍及社會的每個神經(jīng)末梢。因此這次大數(shù)據(jù)技術(shù)革命比以前信息革命的鼓動宣傳以及復雜性科學革命對我們的工作、生活和思維產(chǎn)生的影響會更廣泛、更深入。大數(shù)據(jù)技術(shù)革命還將為科學研究提供新的思維方式和新的科學方法,因此大數(shù)據(jù)技術(shù)必然會對傳統(tǒng)的科學方法論產(chǎn)生巨大的挑戰(zhàn),帶來科學方法論的革命。大數(shù)據(jù)權(quán)威舍恩伯格論述了大數(shù)據(jù)帶來的三大思維變革,即要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果。這三大思維變革如果更具體化地落實到科學方法論上,必然會對傳統(tǒng)的科學方法論產(chǎn)生革命性的轉(zhuǎn)變。

二、走向分析的整體性,實現(xiàn)了還原論與整體論的融貫

科學方法論從宏觀來說主要由整體論和還原論兩種方法論體系構(gòu)成。整體論把研究對象當作一個完整的黑箱來看待,它不打開作為黑箱的研究對象,不破壞對象的完整性,主要從系統(tǒng)的輸入輸出中猜測黑箱內(nèi)部的結(jié)構(gòu)和內(nèi)部機制。還原論也叫機械還原論,是一種與整體論相對立的一種科學方法論,它主張把研究對象盡可能打開,盡量還原到某個邏輯基點,找出系統(tǒng)的構(gòu)成要素及其內(nèi)部機制,以解釋系統(tǒng)的行為和功能。

整體論由來已久,應該說它比還原論更久遠得多,因為在人類的早期,由于科學技術(shù)手段的落后,先人們根本沒法打開作為研究對象,只能把它作為一個整體來進行研究。無論是西方還是東方都是如此。例如中醫(yī)把人體作為一個完整的研究對象,通過把脈、看舌等所謂的“望聞問切”等手段來診斷人體內(nèi)部的運作狀況,從而達到診治疾病的目的。由于只從整體、宏觀層面來考察對象,缺乏微觀、深入的研究,只能依靠黑箱透露出來的少量信息猜測內(nèi)部的結(jié)構(gòu)和機制,難于對研究對象進行科學表述。因此隨著西方科學的進步,特別是分析、還原科學的興起,作為早期重要科學方法論的整體論慢慢走向衰落。

西方的分析、還原思想出現(xiàn)得比較早,當古希臘第一個哲學家、科學家泰勒斯提出水是萬物的本源之時,還原論的思想就凸顯出來。古希臘哲學家的所謂本原問題,其實就是試圖將研究對象還原為其構(gòu)成要素的基本成分,并試圖為萬事萬物尋找到邏輯的出發(fā)點,也就是“始基”。亞里士多德的演繹方法就是還原論的哲學總結(jié)和邏輯表述。隨著牛頓力學的巨大成功,還原論被當作一種萬能的科學方法論運用于分析世間萬物,而且一路高歌,紛紛取得輝煌成就。也就是說,萬物都按照牛頓力學的隔離、分解的原則,打開黑箱,條分縷析,尋找著其基本的構(gòu)成要素及其運作機制。在還原論的幫助下,近代科學的各門學科先后從哲學中獨立出來,成為現(xiàn)代科學的基礎。物理學是所有其他學科的楷模,機器是當時各門學科的共同模型。通過解剖刀的逐一分解,人體也像機器一樣不斷被拆卸,所以拉美特里才會將人比擬成機器,因此機械自然觀和分析還原論成了近現(xiàn)代科學取得巨大成就的重要哲學基礎。還原論曾經(jīng)為科學的發(fā)展立下了汗馬功勞,也正因如此才成為近現(xiàn)代科學方法論的主流,而早期的整體論在還原論面前幾乎沒有還手之力。

隨著科學問題的越來越復雜,特別是面對有機世界的各種生命現(xiàn)象,還原論顯得越來越力不從心,各種問題和矛盾越發(fā)突出。因此,1980年代末,美國的三位諾貝爾獎獲得者才會帶頭“老帥倒戈”,起來造還原論的反,正式提出超越還原論的口號,并成立從事整體、綜合研究的圣菲研究所。1990年代,基于超越還原論的復雜性科學逐漸興起,并很快被稱為“21世紀的科學”,而將以前的所有基于還原論的科學都被稱為“簡單性科學”。由此,沉寂千年的整體論隨著復雜性科學而逐漸復興,還原論被批得體無完膚,甚至大有用整體論來徹底取代還原論之勢。[6]不過復雜性科學興起近30年來,雖然取得了不少成績,甚至曾形成復雜性科學運動,各門學科都試圖用復雜性科學方法來突破原來的學科瓶頸。但因整體方法沒有得到具體的落實,所以目前復雜性科學并沒有因此取得真正革命性的成果

在小數(shù)據(jù)時代,由于采集數(shù)據(jù)和處理數(shù)據(jù)的能力都極其有限,因此我們就盡量減少數(shù)據(jù)量,例如試圖通過還原來找到撬動整體的杠桿,只要幾個數(shù)據(jù)便可知曉研究對象的一切。后來隨著數(shù)據(jù)量的增加,例如人口統(tǒng)計數(shù)據(jù),社會經(jīng)濟調(diào)查等,需要處理的數(shù)據(jù)量急劇增加,但由于處理能力有限,我們必須進行簡化,以便有能力處理。于是統(tǒng)計學發(fā)明了抽樣統(tǒng)計方法,通過對抽樣出來的少量數(shù)據(jù)能夠反映出研究對象的全貌。這些數(shù)據(jù)并沒有“全息”功能,不一定能夠完全反映對象的真實情況,因此帶來了現(xiàn)代科學的種種問題。從本質(zhì)上來說,這兩種方法雖然有所不同,但其本質(zhì)是相通的,都是還原論思想的體現(xiàn),都是我們企圖以少御多的反映,也是簡單性科學思想的體現(xiàn)。

隨著計算技術(shù)和網(wǎng)絡技術(shù)的發(fā)展,采集、存儲、傳輸和處理數(shù)據(jù)都已經(jīng)成了易如反掌的事情。面對復雜對象,我們再沒有必要做過多的還原和精簡,而是可以通過大量數(shù)據(jù)甚至是海量數(shù)據(jù)來全面、完整地刻畫對象,通過處理海量數(shù)據(jù)來找到研究對象的規(guī)律或本質(zhì)。正如舍恩伯格所說:“當數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生翻天覆地的變化時,在大數(shù)據(jù)時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有數(shù)據(jù),‘樣本=總體’”。[4]27在大數(shù)據(jù)中,這個“總體”正好刻畫了整體論中的所謂“整體”,但這個整體是由科學、具體的全部數(shù)據(jù)集合構(gòu)成的,而每個具體的數(shù)據(jù)正是數(shù)據(jù)集合的部分,也就是對象系統(tǒng)的部分。在大數(shù)據(jù)中,整體和部分都有了科學、具體的所指,整體和部分的關(guān)系是一個具體、實在的關(guān)系。這樣,在大數(shù)據(jù)技術(shù)中,由于處理了所涉問題的全部數(shù)據(jù),這就讓整體論中所說的全面、完整把握對象就有了科學的表述并落實到了具體的數(shù)據(jù)。而這全部數(shù)據(jù)是由一個個具體的數(shù)據(jù)構(gòu)成的,因此還原論中的要素、部分也得到了科學的表述。因此,大數(shù)據(jù)方法論通過處理所涉問題的全部數(shù)據(jù)實現(xiàn)了科學、具體的整體論和還原論,實現(xiàn)了還原論與整體論的貫通和辯證統(tǒng)一??傊髷?shù)據(jù)技術(shù)給科學方法論帶來的第一個革命就是為實現(xiàn)復雜性科學的還原、整體辯證統(tǒng)一的融貫方法論提供了具體的技術(shù)實現(xiàn)途徑。

三、承認復雜的多樣性,地方性知識獲得了科學地位

由于西方近代科學的飛速發(fā)展及其對社會的巨大影響,西方近現(xiàn)代科學成了科學的“標桿”和代名詞,以至于我們在說到科學之時基本上指的都是西方近現(xiàn)代科學,而與西方近現(xiàn)代科學不一致的其他知識,例如中醫(yī)藥知識,都被排斥在科學的大門之外。

西方科學哲學從邏輯實證主義起就有一個重要議題,那就是科學與非科學的劃界問題。所謂科學的劃界問題就是試圖用某種標準將科學和非科學區(qū)分開來,并且將非科學或偽科學趕出科學的陣營。此外,科學被當作一切學科的標桿和榜樣,凡是要加入科學陣營的知識,必須具備西方近代科學所具有的特征,否則不但會被拒斥,而且有可能被貼上非科學或偽科學的標簽。

那么,西方近現(xiàn)代科學最根本的特征究竟是什么?西方科學哲學一直沒有統(tǒng)一的意見,邏輯實證主義認為是理論的邏輯表述與結(jié)果的經(jīng)驗證實,波普爾則認為是理論的邏輯表述與結(jié)果的經(jīng)驗證偽。庫恩則認為一門學科是否是科學要看這個學科是不是有了成熟的學科范式,而費耶爾阿本德則認為根本不存在這樣一條明確的分界線。不過不管各家觀點怎么樣,但基本上都認為科學必須建立在理性與邏輯的基礎上,特別是各門學科必須找到自身的邏輯基點。

從科學方法論上來說,西方科學強調(diào)還原論,除了任何理論,不管有多復雜,都必須能夠還原到邏輯原點之外,各門學科還存在還原關(guān)系。物理學是各門學科的基礎,其他學科都最后可以還原到物理學。通過還原,整個西方科學的大廈都可以建立在統(tǒng)一的基礎之上。例如愛因斯坦畢其一生追求著統(tǒng)一場理論,法國著名的布爾巴基學派試圖將整座數(shù)學大廈建立在統(tǒng)一的基礎上。有了統(tǒng)一性,科學就具有了可重復性和可檢驗性。這也就是說,任何科學理論,最終都可以而且必須具有統(tǒng)一的理論表述,而且可以在世界不同的場合用相關(guān)設備進行重復實驗,以便檢驗科學理論的真與假。

但是,科學哲學家費耶爾阿本德以及后來的后現(xiàn)代主義者卻不太認可上述觀點,認為科學并沒有一個統(tǒng)一的基礎和標準,任何知識和經(jīng)驗都有其存在的理由。復雜性科學更是從科學視野強調(diào)了知識的多樣性、語境性和多樣性。不過,以往的科學和哲學批判都還停留在理論層面,缺少了技術(shù)層面的具體操作。直到大數(shù)據(jù)技術(shù)的興起才為打破統(tǒng)一性,提倡多樣性找到了具體的方法和實現(xiàn)途徑,從而真正實現(xiàn)了科學方法論的革命。

追求統(tǒng)一性、標準化是小數(shù)據(jù)時代的標志。過去為什么要還原、統(tǒng)一?因為過去我們沒有有效的科學手段來處理復雜、多樣、多變的海量數(shù)據(jù)。為了能夠用簡單手段和設備能夠處理,便首先在理論上進行簡化,把復雜、多樣的東西首先通過還原論還原到一個基點,而且按照統(tǒng)一標準來進行統(tǒng)一,這樣數(shù)據(jù)便簡單方便,容易處理。在計算機發(fā)展的早期,所有數(shù)據(jù)都要用統(tǒng)一的數(shù)據(jù)格式,即按照標準化的數(shù)據(jù)結(jié)構(gòu)對所有要處理的數(shù)據(jù)首先進行標準化、格式化處理,這就是所謂的結(jié)構(gòu)化數(shù)據(jù),以便達到更加精確無誤的目的。例如在人口統(tǒng)計中,每個人都必須按照標準格式進行填表登記,凡是不符合統(tǒng)一標準的都被當作無效或不精確的數(shù)據(jù)而被廢棄。“對‘小數(shù)據(jù)’而言,最基本、最重要的要求是減少錯誤、保證質(zhì)量。”

在大數(shù)據(jù)時代,時時處處都在實時地產(chǎn)生各種數(shù)據(jù),這些數(shù)據(jù)沒有按照某種標準或某種指令而產(chǎn)生,之后也沒法進行標準化處理,各種數(shù)據(jù)類型都同時存在,例如除了標準化的結(jié)構(gòu)化編碼數(shù)據(jù)之外,微博、聊天記錄、網(wǎng)絡日志、視頻、圖片、地理位置信息等等非結(jié)構(gòu)化或無結(jié)構(gòu)數(shù)據(jù)都成了大數(shù)據(jù)這個大家庭的成員。隨著網(wǎng)絡技術(shù)的發(fā)展,個性化成了潮流,因此結(jié)構(gòu)化、標準化數(shù)據(jù)所占比例越來越少,非結(jié)構(gòu)化或無結(jié)構(gòu)數(shù)據(jù)越來越多。大數(shù)據(jù)技術(shù)不要求數(shù)據(jù)的標準化和結(jié)構(gòu)化,真正體現(xiàn)了兼容并包的原則,用費耶爾阿本德來說就是“怎么都行”。一切都有其存在的理由,存在的就是合理的,因此再也不像小數(shù)據(jù)時代按照統(tǒng)一標準對數(shù)據(jù)的精挑細選,而是容納了多樣性的存在,并能夠從沙里淘金。

復雜性哲學和科學實踐主義哲學都提出了知識的多樣性和地方性的主張,認為知識的形式和內(nèi)容都允許不同的存在,除了全世界都統(tǒng)一的標準化科學知識外,還存在地方性知識。例如中醫(yī)藥、藏醫(yī)藥、伊斯蘭醫(yī)藥等不同地方的醫(yī)藥知識都有著悠久的歷史,并為當?shù)夭煌褡宓娜嗣窠】底龀鲞^巨大的貢獻,因此其形式和方法都與西醫(yī)有很大的不同,但都有存在的必要。[7]另外,有些實踐性知識有時候就是一次性的經(jīng)驗知識,不具備可重復性和可檢驗性,但不能因此就否認這種知識的存在及其價值。復雜性哲學與科學實踐主義哲學的這些主張都是革命性的,但這些主張并不那么容易實現(xiàn),因此在實踐中往往仍然按照理性主義的主張來判斷知識的科學性

大數(shù)據(jù)技術(shù)的興起,為復雜性哲學和科學實踐主義哲學的主張得到了真正的落實。大數(shù)據(jù)方法論認為:“執(zhí)迷于精確性是信息缺乏時代和模擬時代的產(chǎn)物。只有5%的數(shù)據(jù)是結(jié)構(gòu)化且能適用于傳統(tǒng)數(shù)據(jù)庫的。如果不接受混亂,剩下95%的非結(jié)構(gòu)化數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界之窗。”[4]45所以大數(shù)據(jù)技術(shù)把語境性知識、地方性知識、多樣性知識統(tǒng)統(tǒng)納入知識的范圍,科學不再挑三揀四,不再排斥異己,而是體現(xiàn)了更多包容心。“要想獲得大數(shù)據(jù)帶來的好處,混亂應該是一種標準途徑,而不應該竭力避免的。”[4]60因此,舍恩伯格得出結(jié)論說:“相比依賴于小數(shù)據(jù)和精確性的時代,大數(shù)據(jù)因為更強調(diào)數(shù)據(jù)的完整性和混雜性,幫助我們進一步接近事實的真相”。[4]46總之,大數(shù)據(jù)技術(shù)給科學方法論帶來的第二個革命是復雜性、多樣性得到了承認,多樣性、地方性知識獲得了科學的地位。

四、突出事物的關(guān)聯(lián)性,非線性問題有了解決捷徑

我們說過,按照西方科學的還原方法論傳統(tǒng),理性、邏輯和因果性是科學的基本特征,也是科學的核心問題及基本追求。從古希臘開始,西方科學與哲學就一直苦苦追尋著事物間的因果關(guān)系,試圖從事物間的因果關(guān)系中捕捉到事物間的基本規(guī)律。例如古希臘自然哲學家都熱衷于尋找世界的本源,這就涉及因果性的問題,因為他們就是循著因果鏈條去尋找世界的“始基”,也就是找到因果鏈的起點。歐幾里得幾何學從五條公理出發(fā),循著因果鏈推演出整個幾何世界。科學之所以能夠存在而且最令人信服,就是因為科學中的所有理論都有其因果推演。所謂的邏輯、理性其實最終都可以歸結(jié)為因果性的問題,沒有因果性就沒有了科學存在的基礎。

文藝復興之后,西方哲學遵循兩條發(fā)展路徑,即唯理論與經(jīng)驗論,而且相互爭論了數(shù)百年。唯理論認為知識的出發(fā)點是更普遍的正確理論作推演前提,從正確的前提中推出正確的結(jié)論。經(jīng)驗論則認為知識的出發(fā)點是人類的各種經(jīng)驗事實,我們可以從經(jīng)驗中歸納出具有普遍必然性的知識。就出發(fā)點來說,它們是有分歧的,但承認事物之間的因果性這一點上,這兩派是完全一致的。后來英國經(jīng)驗論哲學家休謨由于將經(jīng)驗推到極致最后導致了因果性危機并引發(fā)人們對科學信念的動搖。德國哲學家康德的名著《純粹理性批判》之所以出名就是因為他試圖通過對因果性的辯護來挽救科學信仰的危機。后來邏輯實證主義以及波普爾的證偽主義都建立在因果性的基礎上,從而強化了科學的標桿地位。

因果性問題其實就是我們平時所說的“為什么”的問題。人類天生有一種追根究底的好奇心,萬事都要問個為什么。我們也已經(jīng)習以為常,覺得只有追問為什么才能掌握事物的規(guī)律。但是,隨著大數(shù)據(jù)技術(shù)的興起,這條天經(jīng)地義的方法論原則被動搖了。大數(shù)據(jù)學者認為,追求因果性是小數(shù)據(jù)時代的標志,而在大數(shù)據(jù)時代,知道“是什么”就夠了,沒必要知道“為什么”。我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。

什么叫事物的相關(guān)性呢?所謂相關(guān)性就是一種現(xiàn)象的變化有可能會引起另一種現(xiàn)象產(chǎn)生相應的變化。當然,這里只能說“有可能”,如果是“一定”、“必然”的話,那就變成了因果性了。從這里可以看出,相關(guān)性是一種比因果性更弱的事物間的關(guān)系,也許兩現(xiàn)象間根本沒有必然的聯(lián)系,只是偶然巧合罷了。是必然還是巧合?大數(shù)據(jù)技術(shù)根本不想去追究,只要會引起變化就認為有相關(guān)關(guān)系。“相關(guān)關(guān)系的核心是量化兩個數(shù)據(jù)之間的數(shù)理關(guān)系”。

小數(shù)據(jù)時代為什么更關(guān)心因果關(guān)系,而大數(shù)據(jù)時代更關(guān)注相關(guān)關(guān)系呢?在小數(shù)據(jù)時代,可獲得的數(shù)據(jù)比較少,每個數(shù)據(jù)都比較珍貴,基本上不會有冗余的數(shù)據(jù),而且數(shù)據(jù)結(jié)構(gòu)和類型單一,數(shù)據(jù)之間一般都是呈線性因果關(guān)系,因此我們可以詳細地研究每個數(shù)據(jù)之間的細節(jié),并從中找出它們之間的因果關(guān)系和微觀規(guī)律。但是,在大數(shù)據(jù)時代,數(shù)據(jù)量特別巨大,冗余數(shù)據(jù)也特別多,數(shù)據(jù)結(jié)構(gòu)不同、類型不一,可謂紛繁復雜。要從微觀上從大數(shù)據(jù)中找出它們數(shù)據(jù)之間的所有因果關(guān)系幾乎是不可能的,因此我們退而求其次,把所有相關(guān)數(shù)據(jù)當作一個黑箱。通過黑箱的輸入輸出,我們從宏觀上去尋找有關(guān)聯(lián)的數(shù)據(jù),即找出有顯著變化的關(guān)聯(lián)關(guān)系,以便找到海量數(shù)據(jù)間的宏觀規(guī)律。這也是大數(shù)據(jù)學者強調(diào)在大數(shù)據(jù)中關(guān)聯(lián)關(guān)系比因果關(guān)系更重要的原因。

在小數(shù)據(jù)時代,我們面對的線性因果關(guān)系是比較容易處理的問題,例如通過解線性方程可以找到問題的答案。但是,大數(shù)據(jù)的海量數(shù)據(jù)之間往往都是非線性關(guān)系。我們知道,非線性方程目前來說很難得到通用解,一般只能通過數(shù)值方法來得到一些特殊解。大數(shù)據(jù)技術(shù)通過尋找相關(guān)數(shù)據(jù)之間的關(guān)系,從而忽略中間過程,忽略其中的因果細節(jié),只管最后的宏觀關(guān)系。“相關(guān)關(guān)系很有用,不僅僅是因為它能為我們提供新的視角,而且提供的視角都很清晰。而我們一旦把因果關(guān)系考慮進來,這些視角就有可能被蒙蔽。”[4]88這樣我們又找到了解決非線性問題的一種比較便捷的科學方法

解釋和預測是科學理論的兩項基本功能。所謂解釋就是對已經(jīng)發(fā)生的現(xiàn)象找出因果或相關(guān)關(guān)系來說明現(xiàn)象之間的規(guī)律或關(guān)系。所謂預測就是已知一些現(xiàn)象,通過因果或相關(guān)關(guān)系來預見未來即將發(fā)生的現(xiàn)象。對于小數(shù)據(jù)及其線性因果來說,解釋和預測都比較簡單。但面對大數(shù)據(jù),解釋和預測都比較復雜。在大數(shù)據(jù)方法之前,我們往往無能為力,但大數(shù)據(jù)方法為我們找到了具體實現(xiàn)的技術(shù)途徑。在大數(shù)據(jù)時代,新的技術(shù)分析工具和思路為我們提供了一系列新的視野和有用的預測,“我們看到了很多以前不曾注意到的聯(lián)系,還掌握了以前無法理解的復雜技術(shù)和社會動態(tài)”。更重要的是,“通過探求‘是什么’而不是‘為什么’,相關(guān)關(guān)系幫助我們更好地了解這個世界”

大數(shù)據(jù)時代更重視相關(guān)關(guān)系,而對因果關(guān)系有所忽視,那么有了相關(guān)關(guān)系是不是就不要因果關(guān)系了呢?或者說,相關(guān)關(guān)系是不是否定了因果關(guān)系呢?答案是否定的。大數(shù)據(jù)技術(shù)并不像哲學家休謨一樣懷疑或否定事物之間的因果關(guān)系。相反,它充分肯定事物之間的因果關(guān)系。只是因為太多數(shù)據(jù),我們無法一一找出它們之間的微觀因果聯(lián)系,只好忽略中間的因果關(guān)系過程,從宏觀、從最后結(jié)果來把握它們的相關(guān)關(guān)系?;蛘哒f,相關(guān)性并沒有否定因果性,只是忽略了其細節(jié)。舍恩伯格也承認這一點,他說:“因果關(guān)系還是很有用的,但是它將不再被看成是意義來源的基礎。”[4]83總之,大數(shù)據(jù)技術(shù)帶來的第三個方法論革命就是凸顯事物間的相關(guān)關(guān)系和非線性特征,而不再特別關(guān)注其因果關(guān)系

結(jié)語

大數(shù)據(jù)時代的來臨給我們帶來了許多觀念的變革,更帶來了許多科學新方法、新工具,從而改變了人類探索世界的方法。復雜性科學為我們提供了科學的新思維和新方法論,但缺少具體的實現(xiàn)途徑。大數(shù)據(jù)技術(shù)的興起彌補了復雜性科學的不足,使得復雜性科學方法論變成了可以具體操作的方法工具,從而帶來了科學方法論的真正革命。“大數(shù)據(jù)時代將要釋放出來的巨大價值使得我們選擇大數(shù)據(jù)的理念和方法不再是一種權(quán)衡,而是通往未來的必然改變。”

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號