1998年,“大數(shù)據(jù)”概念首次出現(xiàn)在美國《科學(xué)》雜志中。近20年來,大數(shù)據(jù)浪潮一波波向世人撲面而來。有人形容,大數(shù)據(jù)就像一片無邊無際的大海,海面一浪高過一浪,而浪潮之下深不見底。
大數(shù)據(jù)的核心口號是量化世界,量化世界為創(chuàng)構(gòu)世界奠定了基礎(chǔ)。在大數(shù)據(jù)的基礎(chǔ)上,物數(shù)據(jù)化和數(shù)據(jù)物化構(gòu)成循環(huán)。這是因為,物數(shù)據(jù)化事實上就是物信息化,數(shù)據(jù)物化實質(zhì)上就是信息物化。隨著現(xiàn)代信息技術(shù)的發(fā)展,創(chuàng)構(gòu)活動及其產(chǎn)物與人的存在方式越來越密切地聯(lián)系在一起。
這里涉及一個新的重要概念:信息。在控制論創(chuàng)始人維納看來,“信息就是信息,既不是物質(zhì)也不是能量”。這個定義看上去像是同義反復(fù),卻富有深意。比如,物能復(fù)制成本呈正比增加,而信息復(fù)制的邊際成本遞減;物能越分享越少,而信息越共享越多。信息的這些重要性質(zhì),在作為樣本數(shù)據(jù)的小數(shù)據(jù)時,顯示不出重要性;而在大數(shù)據(jù)基礎(chǔ)上,則變得非同尋常。在大數(shù)據(jù)的基礎(chǔ)上,信息會對人類的文明發(fā)展產(chǎn)生極為重要的影響。
面對大數(shù)據(jù)打開的這扇大門,我們不能不深入思考:這將是怎樣的一扇門,又會把我們帶進(jìn)一個怎樣的新世界?
■面對一張拍好的平面照片,再要換個角度去觀察已不太可能。大數(shù)據(jù)則幾乎保留了全緯度。面對大數(shù)據(jù),我們可以從不同的角度進(jìn)行考察。作為樣本數(shù)據(jù),小數(shù)據(jù)是“殘缺”的。就像尼采說抽象的概念是“干枯的標(biāo)本”,樣本數(shù)據(jù)和抽象概念的共同特點都是已經(jīng)“失活”了。而大數(shù)據(jù)意味著活數(shù)據(jù)(動態(tài)數(shù)據(jù))、全數(shù)據(jù)
■對于大數(shù)據(jù)來說,信息是活的,是隨著時間而流動的。高速的數(shù)據(jù)流更能在時間上與現(xiàn)實過程同步,因而跟人類的生存密切聯(lián)系在一起。不僅如此,只有高速流動的數(shù)據(jù),才能提供無限的可能性。以往受速率限制,人們獲得的數(shù)據(jù)和所要反映的內(nèi)容往往脫節(jié),而數(shù)據(jù)流的高速率使我們把握對象的手段越來越完善
■有人提出,大數(shù)據(jù)的價值密度低,數(shù)據(jù)挖掘相當(dāng)于“沙里淘金”。其實,對于同一個結(jié)構(gòu)開放的大數(shù)據(jù),一些人可能視其為一堆垃圾,毫無意義;而在另一些人看來則會是一座寶庫,價值連城。大數(shù)據(jù)的價值和意義,很大程度上取決于人們的理解,取決于人們的眼光。歸根結(jié)底,取決于對人的需要及其發(fā)展的理解和把握
■信息文明的發(fā)展,是一個在大數(shù)據(jù)基礎(chǔ)上的公共信息對稱化過程。這就要求,為推動信息文明的發(fā)展,必須在公共領(lǐng)域盡可能消除信息不對稱。同時,為保持信息文明發(fā)展的動力,必須盡可能保護(hù)創(chuàng)新專利。這很可能是時代發(fā)展的必然趨勢。對此,人類社會應(yīng)當(dāng)提前進(jìn)行思考,即如何避免新的社會不公平的出現(xiàn)
關(guān)于大數(shù)據(jù)的具體特征,可以用4個“V”來描述
在技術(shù)定義上,大數(shù)據(jù)最主要的一個著眼點是規(guī)模大。但是,大數(shù)據(jù)的關(guān)鍵性質(zhì)不主要是規(guī)模大,而是完全不同于作為樣本數(shù)據(jù)的小數(shù)據(jù)。通常,樣本數(shù)據(jù)的獲取總是會先設(shè)定明確甚至單一的目的。這種取樣,一方面可以更好地實現(xiàn)采樣前預(yù)設(shè)的目標(biāo),另一方面也抹去了其他的可能性。
大數(shù)據(jù)的另一個重要性質(zhì)是維度全。通常,我們拍照會選取一個角度。角度一取,數(shù)據(jù)就固定了。面對一張拍好的平面照片,再要換個角度去觀察已不太可能。大數(shù)據(jù)則幾乎保留了全緯度。面對大數(shù)據(jù),我們可以從不同的角度進(jìn)行考察。作為樣本數(shù)據(jù),小數(shù)據(jù)是“殘缺”的。就像尼采說抽象的概念是“干枯的標(biāo)本”,樣本數(shù)據(jù)和抽象概念的共同特點都是已經(jīng)“失活”了。而大數(shù)據(jù)意味著活數(shù)據(jù)(動態(tài)數(shù)據(jù))、全數(shù)據(jù)。
關(guān)于大數(shù)據(jù)的特征,最早是用3個V來概括的。幾年前,人們認(rèn)為“3V”不足以描述大數(shù)據(jù)的特征,又提出了“4V”的描述,即volume、variety、velocity和value。
“volume”一般理解為大量。大數(shù)據(jù)首先意味著數(shù)據(jù)量巨大。小數(shù)據(jù)時代主要由人工創(chuàng)建數(shù)據(jù),大數(shù)據(jù)時代則由機(jī)器、網(wǎng)絡(luò)和人類相互作用生成。大量是大數(shù)據(jù)的基本特征,但往往被誤以為大數(shù)據(jù)就是大。事實上,這個特征所表達(dá)的是大數(shù)據(jù)規(guī)模的整全性。大數(shù)據(jù)的“大”不是純粹量的概念,關(guān)鍵是全,是一個質(zhì)的概念。
“variety”一般理解為多樣。這包括大數(shù)據(jù)來源的多樣性和類型的多樣性,也包括數(shù)據(jù)結(jié)構(gòu)的多樣性。由于數(shù)據(jù)結(jié)構(gòu)的多樣性和復(fù)雜性,大數(shù)據(jù)的這一特征還意味著數(shù)據(jù)結(jié)構(gòu)的開放性。舉例來說,大自然可以滿足人類的生存需要,但我們面對大自然時的作為很有限。而大數(shù)據(jù)不一樣,在以人類需要為出發(fā)點的大數(shù)據(jù)挖掘中,人類可以在這一個無限空間中進(jìn)行滿足自己需要的創(chuàng)構(gòu)。
“velocity”一般理解為高速。它不僅僅是指技術(shù)設(shè)備的數(shù)據(jù)處理速度,更重要的是指實時數(shù)據(jù)流。樣本數(shù)據(jù)在取樣后就是凍結(jié)的,而大數(shù)據(jù)可以實時獲取所需信息。對于大數(shù)據(jù)來說,信息是活的,是隨著時間而流動的。正因為如此,對于實時數(shù)據(jù)流來說,速率就特別重要。高速的數(shù)據(jù)流更能在時間上與現(xiàn)實過程同步,因而跟人類的生存更密切地聯(lián)系在一起。不僅如此,只有高速流動的數(shù)據(jù),才能提供無限的可能性。以往受速率限制,人們獲得的數(shù)據(jù)和所要反映的內(nèi)容往往是脫節(jié)的,而數(shù)據(jù)流的高速率使我們把握對象的手段越來越完善。
“value”用以描述大數(shù)據(jù)的價值。大數(shù)據(jù)價值特征的重要性不言自明,但大數(shù)據(jù)也十分復(fù)雜。據(jù)此有人提出,大數(shù)據(jù)的價值密度低,數(shù)據(jù)挖掘相當(dāng)于“沙里淘金”。其實,對于同一個結(jié)構(gòu)開放的大數(shù)據(jù),一些人可能視其為一堆垃圾,毫無意義;而在另一些人看來則會是一座寶庫,價值連城。大數(shù)據(jù)的價值和意義,很大程度上取決于人們的理解,取決于人們的眼光。歸根結(jié)底,取決于對人的需要及其發(fā)展的理解和把握。
顯然,這是一個典型的哲學(xué)課題。隨著大數(shù)據(jù)的發(fā)展,不僅哲學(xué)等各學(xué)科會越來越相互融合,而且將迎來哲學(xué)與科學(xué)、社會和生活一體化發(fā)展的時代。
沃爾瑪?shù)膬蓚€案例,開啟大數(shù)據(jù)應(yīng)用廣闊前景
大數(shù)據(jù)究竟是垃圾還是寶庫,涉及的是大數(shù)據(jù)的應(yīng)用問題。換句話說,既然大家都認(rèn)為大數(shù)據(jù)是個好東西,是個有用的東西,那它到底該怎么使用呢?
就目前而言,大數(shù)據(jù)應(yīng)用仍然是一個重要而前沿的話題。其中,大數(shù)據(jù)中的相關(guān)關(guān)系和因果關(guān)系,是大數(shù)據(jù)應(yīng)用和分析研究中的重要問題。大數(shù)據(jù)凸顯了相關(guān)關(guān)系的巨大魅力,同時也構(gòu)成了對傳統(tǒng)因果觀念的沖擊。
跨國零售企業(yè)沃爾瑪“啤酒和尿布”的故事,就是人們津津樂道的大數(shù)據(jù)應(yīng)用的一個經(jīng)典案例。沃爾瑪在大數(shù)據(jù)基礎(chǔ)上,用“購物籃方法”分析消費者購物行為時發(fā)現(xiàn),一些男性顧客在購買嬰兒尿布時,常常會同時買幾瓶啤酒。原來,美國家庭生了小孩,一般是母親在家照顧孩子、父親外出采購。而年輕父親在購買尿布時,常常會順便給自己買上幾瓶啤酒,既解乏又喜慶。由此,沃爾瑪推出啤酒和尿布擺在一起的促銷方式,吸引了更多有這種需要的顧客前來購物,尿布和啤酒的銷量都得到大幅增加。
大數(shù)據(jù)相關(guān)關(guān)系在類似行業(yè)的成功應(yīng)用,使一些人提出還要不要深究因果關(guān)系的問題。一些極端的觀點甚至認(rèn)為,大數(shù)據(jù)是關(guān)于“是什么”而不是“為什么”的;大數(shù)據(jù)會自己說話,因而只要相關(guān)關(guān)系不要因果關(guān)系。這種觀點顯然是興奮于大數(shù)據(jù)令人驚嘆的實用性。但理性來看,大數(shù)據(jù)不僅把握相關(guān)關(guān)系,而且把握作為其根基的因果關(guān)系。
“蛋撻和手電筒”就是一個典型的例子。與“啤酒和尿布”案例一樣,沃爾瑪?shù)拇髷?shù)據(jù)表明,很多人在買手電筒的同時還會購買蛋撻。因而,根據(jù)這一消費相關(guān)性,沃爾瑪決定在貨架上把這兩種產(chǎn)品擺放在一起。但是,如果知道其背后的因果關(guān)系,相關(guān)銷售效果顯然會更好。有人發(fā)現(xiàn),人們同時購買手電筒和蛋撻的因果關(guān)系涉及北美颶風(fēng)。原來,颶風(fēng)來臨前人們既需要準(zhǔn)備手電筒,又需要準(zhǔn)備食物。不過,北美颶風(fēng)是季節(jié)性風(fēng)暴,如果只知道相關(guān)關(guān)系而不知道因果關(guān)系,就可能一直把手電筒和蛋撻這兩類不同商品放在同一貨架上。而知道背后的因果關(guān)系后,就可以在颶風(fēng)來臨前把蛋撻和手電筒放在一起,而且還可專設(shè)颶風(fēng)用品區(qū)域。這樣一來,銷量顯然會大為增加。
可見,只要相關(guān)關(guān)系、不要因果關(guān)系的觀點,很容易駁倒。其實,真正關(guān)鍵的問題不在于是相關(guān)關(guān)系還是因果關(guān)系哪個更加重要,而在于怎么理解相關(guān)性和因果性之間的關(guān)系。
一般來說,傳統(tǒng)因果觀僅反映日常生活和經(jīng)典物理學(xué)中因果關(guān)系的表觀現(xiàn)象。這樣的因果模型,不僅不能理解大數(shù)據(jù)的相關(guān)關(guān)系,而且不能建立起大數(shù)據(jù)相關(guān)關(guān)系和因果關(guān)系的關(guān)聯(lián)。只有把原因看作因素相互作用的過程,把結(jié)果看作因素相互作用過程的效應(yīng),才能擴(kuò)展對因果關(guān)系的理解,從而適用于大數(shù)據(jù)相關(guān)關(guān)系和因果關(guān)系問題的認(rèn)識。由此建立起來的新因果模型具有內(nèi)容豐富的結(jié)構(gòu),呈現(xiàn)出因果模型的過去時態(tài)、進(jìn)行時態(tài)和未來時態(tài)。它不僅有利于人們理解凝固的因果關(guān)系,而且在人們面前敞開了創(chuàng)構(gòu)未來的廣闊空間。顯然,這種新的因果關(guān)系與現(xiàn)實社會更加接近。
人類將更多與信息打交道,而不是傳統(tǒng)的物能
如果把以往的文明形態(tài)都看作物能文明的話,那人類社會發(fā)展到大數(shù)據(jù)時代所迎來的,則是一種不同于物能文明的信息文明。作為一種與物能文明相平行的文明形態(tài),信息文明是一種基于信息本性的共享文明。在大數(shù)據(jù)的基礎(chǔ)上,信息的共享本性可以充分展開。
而且,信息文明的發(fā)展,是一個在大數(shù)據(jù)基礎(chǔ)上的公共信息對稱化過程。這就要求,為推動信息文明的發(fā)展,必須在公共領(lǐng)域盡可能消除信息不對稱。同時,為保持信息文明發(fā)展的動力,必須盡可能保護(hù)創(chuàng)新專利。
作為一種人類文明,信息文明是一種基于信息機(jī)制的役物文明。在信息文明時代,人類通過信息控制物能,進(jìn)而使物質(zhì)通過結(jié)構(gòu)的調(diào)整,由一種對人類不那么有價值的材料變成價值更大的材料,從一種不太能滿足人的需要的形態(tài)變成一種更能滿足人的需要的形態(tài),使能量從難以利用的形態(tài)變成更容易獲得和利用的形態(tài)。由此,人類活動更多是直接與信息打交道,而不是傳統(tǒng)的與物能打交道。
作為人類文明發(fā)展的更高階段,信息文明還是一種基于信息創(chuàng)構(gòu)的人性文明。不僅對物能的控制達(dá)到全社會甚至全人類實現(xiàn)“物為人役”的水平,使人類活動從以描述認(rèn)識為主進(jìn)入到以創(chuàng)構(gòu)認(rèn)識為主,而且也意味著全面解放創(chuàng)造力,即人性獲得越來越高水平的解放。
大數(shù)據(jù)打開了信息文明大門,也將釋放一系列新的重要問題。這些重大的問題,既涉及個人生活,也涉及社會發(fā)展。
一是信息生態(tài)問題。由于人越來越以信息方式存在,信息生態(tài)理所當(dāng)然成為一個越來越重要的基礎(chǔ)性問題。對人類來說,自然生態(tài)或者說物能生態(tài)具有切身性,而信息生態(tài)不僅具有切身性還更具“切心性”,更切近人的心靈。因此,在自然生態(tài)的基礎(chǔ)上,信息生態(tài)將日益為人所密切關(guān)注,成為信息文明時代關(guān)乎人類發(fā)展的問題。
二是人的存在意義問題。沒有物能就沒有信息的存在,物能存在是基礎(chǔ)。但在信息文明時代,如果一個人仍然主要以物能方式存在,仍然以基于物能的感官享受作為生活意義的主要來源,仍然主要滯留于物能存在方式,那很可能將成為無意義的人群。
在信息文明時代,人類的活動主要是信息活動。只有主要以信息方式存在,并且以創(chuàng)構(gòu)活動作為自己主要活動方式的人,才能進(jìn)入意義生產(chǎn)的領(lǐng)域。在這個意義上,信息文明的確意味著一種分化:相對無意義的人群和生產(chǎn)意義的人群。這很可能是信息文明時代發(fā)展的必然趨勢。對此,人類社會應(yīng)當(dāng)提前進(jìn)行思考,即如何避免新的社會不公平的出現(xiàn)。
三是國家的發(fā)展問題。從人類社會發(fā)展史可以看到這樣一個重要事實:一個大國的真正崛起,通常要引領(lǐng)一種新的文明。信息文明時代的到來,必定伴隨著大國的新崛起,不管是現(xiàn)實的還是潛在的大國。在21世紀(jì),中國要和平發(fā)展、成為真正的世界大國,有必要在引領(lǐng)信息文明上發(fā)力。
總之,如果不能夠引領(lǐng)信息文明發(fā)展,一個國家就不可能真正實現(xiàn)大國崛起。在這個過程中,國家的興衰與個人的生存發(fā)展不僅聯(lián)系在一起,而且構(gòu)成相互依存、協(xié)同發(fā)展的循環(huán)。