大數(shù)據(jù)的力量來自“大成智慧”信息時代大數(shù)據(jù)的再認識

責任編輯:jackye

2016-02-22 09:02:24

摘自:199IT網(wǎng)

大數(shù)據(jù)已成為媒體與大眾關(guān)注的新技術(shù),大數(shù)據(jù)的應(yīng)用也預(yù)示著信息時代將進入一個新階段,但人們對大數(shù)據(jù)的認識有一個不斷加深的過程。

1e20005a3f3782dd6b5

大數(shù)據(jù)已成為媒體與大眾關(guān)注的新技術(shù),大數(shù)據(jù)的應(yīng)用也預(yù)示著信息時代將進入一個新階段,但人們對大數(shù)據(jù)的認識有一個不斷加深的過程。首先從“信息時代新階段”、數(shù)據(jù)文化和認識論的高度闡述了對大數(shù)據(jù)的理解;接著通過對驅(qū)動效益和大成智慧的解釋,探討了如何正確認識大數(shù)據(jù)的價值和效益,并從復(fù)雜性的角度分析了大數(shù)據(jù)研究和應(yīng)用面臨的挑戰(zhàn);最后對發(fā)展大數(shù)據(jù)應(yīng)避免的誤區(qū)提出幾點看法。

1 大數(shù)據(jù)興起預(yù)示“信息時代”進入新階段

1.1 看待大數(shù)據(jù)要有歷史性的眼光

信息時代是相對于農(nóng)業(yè)和工業(yè)時代而言的一段相當長的時間。不同時代的生產(chǎn)要素和社會發(fā)展驅(qū)動力有明顯差別。信息時代的標志性技術(shù)發(fā)明是數(shù)字計算機、集成電路、光纖通信和互聯(lián)網(wǎng)(萬維網(wǎng))。盡管媒體上大量出現(xiàn)“大數(shù)據(jù)時代”的說法,但大數(shù)據(jù)、云計算等新技術(shù)目前還沒有出現(xiàn)與上述劃時代的技術(shù)發(fā)明可媲美的技術(shù)突破,難以構(gòu)成一個超越信息時代的新時代。信息時代可以分成若干階段,大數(shù)據(jù)等新技術(shù)的應(yīng)用標志著信息社會將進入一個新階段。

考察分析100年以上的歷史長河可以發(fā)現(xiàn),信息時代與工業(yè)時代的發(fā)展規(guī)律有許多相似之處。電氣化時代與信息時代生產(chǎn)率的提高過程驚人地相似。都是經(jīng)過20~30年擴散儲備之后才有明顯提高,分界線分別是1915年和1995年[1]。筆者猜想,信息技術(shù)經(jīng)過幾十年的擴散儲備后,21世紀的前30年可能是信息技術(shù)提高生產(chǎn)率的黃金時期。

1.2 從“信息時代新階段”的高度認識“大數(shù)據(jù)”

中國已開始進入信息時代,但許多人的思想還停留在工業(yè)時代。經(jīng)濟和科技工作中出現(xiàn)的許多問題,其根源是對時代的認識不到位。18-19世紀中國落后挨打,根源是滿清政府沒有認識到時代變了,我們不能重犯歷史性的錯誤。

中央提出中國進入經(jīng)濟“新常態(tài)”以后,媒體上有很多討論,但多數(shù)是為經(jīng)濟增速降低做解釋,很少有從時代改變的角度論述“新常態(tài)”的文章。筆者認為,經(jīng)濟新常態(tài)意味著中國進入了以信息化帶動新型工業(yè)化、城鎮(zhèn)化和農(nóng)業(yè)現(xiàn)代化的新階段,是經(jīng)濟和社會管理的躍遷,不是權(quán)宜之計,更不是倒退。

大數(shù)據(jù)、移動互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、云計算、物聯(lián)網(wǎng)等新一代信息技術(shù)構(gòu)成的IT架構(gòu)“第三平臺”是信息社會進入新階段的標志,對整個經(jīng)濟的轉(zhuǎn)型有引領(lǐng)和帶動作用。媒體上經(jīng)常出現(xiàn)的互聯(lián)網(wǎng)+、創(chuàng)客、“第二次機器革命”、“工業(yè)4.0”等都與大數(shù)據(jù)和云計算有關(guān)。大數(shù)據(jù)和云計算是新常態(tài)下提高生產(chǎn)率的新杠桿,所謂創(chuàng)新驅(qū)動發(fā)展就是主要依靠信息技術(shù)促進生產(chǎn)率的提高。

1.3 大數(shù)據(jù)可能是中國信息產(chǎn)業(yè)從跟蹤走向引領(lǐng)的突破口

中國的大數(shù)據(jù)企業(yè)已經(jīng)有相當好的基礎(chǔ)。全球十大互聯(lián)網(wǎng)服務(wù)企業(yè)中國占有4席(阿里巴巴、騰訊、百度和京東),其他6個Top10 互聯(lián)網(wǎng)服務(wù)企業(yè)全部是美國企業(yè),歐洲和日本沒有互聯(lián)網(wǎng)企業(yè)進入Top10。這說明中國企業(yè)在基于大數(shù)據(jù)的互聯(lián)網(wǎng)服務(wù)業(yè)務(wù)上已處于世界前列。在發(fā)展大數(shù)據(jù)技術(shù)上,我國有可能改變過去30年技術(shù)受制于人的局面,在大數(shù)據(jù)應(yīng)用上中國有可能在全世界起到引領(lǐng)作用。

但是,企業(yè)的規(guī)模走在世界前列并不表示我國在大數(shù)據(jù)技術(shù)上領(lǐng)先。實際上,國際上目前流行的大數(shù)據(jù)主流技術(shù)沒有一項是我國開創(chuàng)的。開源社區(qū)和眾包是發(fā)展大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)的重要途徑,但我們對開源社區(qū)的貢獻很小,在全球近萬名社區(qū)核心志愿者中,我國可能不到200名。我們要吸取過去基礎(chǔ)研究為企業(yè)提供核心技術(shù)不夠的教訓,加強大數(shù)據(jù)基礎(chǔ)研究和前瞻技術(shù)研究,努力攻克大數(shù)據(jù)核心和關(guān)鍵技術(shù)。

2 理解大數(shù)據(jù)需要上升到文化和認識論的高度

2.1 數(shù)據(jù)文化是一種先進文化

數(shù)據(jù)文化的本質(zhì)是尊重客觀世界的實事求是精神,數(shù)據(jù)就是事實。重視數(shù)據(jù)就是強調(diào)用事實說話、按理性思維的科學精神。中國人的傳統(tǒng)習慣是定性思維而不是定量思維。目前許多城市在開展政府數(shù)據(jù)開放共享工作,但是發(fā)現(xiàn)多數(shù)老百姓對政府要開放的數(shù)據(jù)并不感興趣。要讓大數(shù)據(jù)走上健康的發(fā)展軌道,首先要大力弘揚數(shù)據(jù)文化。本文講的數(shù)據(jù)文化不只是大數(shù)據(jù)用于文藝、出版等文化產(chǎn)業(yè),而是指全民的數(shù)據(jù)意識。全社會應(yīng)認識到:信息化的核心是數(shù)據(jù),只有政府和大眾都關(guān)注數(shù)據(jù)時,才能真正理解信息化的實質(zhì);數(shù)據(jù)是一種新的生產(chǎn)要素,大數(shù)據(jù)的利用可以改變資本和土地等傳統(tǒng)要素在經(jīng)濟中的權(quán)重。

有人將“上帝與數(shù)據(jù)共舞”歸納為美國文化的特點之一,說的是美國人既有對神的誠意,又有通過數(shù)據(jù)求真的理性。美國從鍍金時代到進步主義時期完成了數(shù)據(jù)文化的思維轉(zhuǎn)變,南北戰(zhàn)爭之后人口普查的方法被應(yīng)用到很多領(lǐng)域,形成了數(shù)據(jù)預(yù)測分析的思維方式。近百年來美國和西方各國的現(xiàn)代化與數(shù)據(jù)文化的傳播滲透有密切關(guān)系,我國要實現(xiàn)現(xiàn)代化也必須強調(diào)數(shù)據(jù)文化。

提高數(shù)據(jù)意識的關(guān)鍵是要理解大數(shù)據(jù)的戰(zhàn)略意義。數(shù)據(jù)是與物質(zhì)、能源一樣重要的戰(zhàn)略資源,數(shù)據(jù)的采集和分析涉及每一個行業(yè),是帶有全局性和戰(zhàn)略性的技術(shù)。從硬技術(shù)到軟技術(shù)的轉(zhuǎn)變是當今全球性的技術(shù)發(fā)展趨勢,而從數(shù)據(jù)中發(fā)現(xiàn)價值的技術(shù)正是最有活力的軟技術(shù),數(shù)據(jù)技術(shù)與數(shù)據(jù)產(chǎn)業(yè)的落后將使我們像錯過工業(yè)革命機會一樣延誤一個時代。

2.2 理解大數(shù)據(jù)需要有正確的認識論

歷史上科學研究是從邏輯演繹開始的,歐幾里得幾何的所有定理可從幾條公理推導出來。從伽利略和牛頓開始,科學研究更加重視自然觀察和實驗觀察,在觀察基礎(chǔ)上通過歸納方法提煉出科學理論,“科學始于觀察”成為科學研究和認識論的主流。經(jīng)驗論和唯理論這兩大流派都對科學的發(fā)展做出過重大貢獻,但也暴露出明顯的問題,甚至走入極端。理性主義走向極端就成為康德所批判的獨斷主義,經(jīng)驗主義走入極端就變成懷疑論和不可知論[2]。

20世紀30年代,德國哲學家波普爾提出了被后人稱為“證偽主義”的認識論觀點,他認為科學理論不能用歸納法證實,只能被試驗發(fā)現(xiàn)的反例“證偽”,因而他否定科學始于觀察,提出“科學始于問題”的著名觀點[3]。證偽主義有其局限性,如果嚴格遵守證偽法則,萬有引力定律、原子論等重要理論都可能被早期的所謂反例扼殺。但“科學始于問題”的觀點對當前大數(shù)據(jù)技術(shù)的發(fā)展有指導意義。

大數(shù)據(jù)的興起引發(fā)了新的科學研究模式:“科學始于數(shù)據(jù)”。從認識論的角度看,大數(shù)據(jù)分析方法與“科學始于觀察”的經(jīng)驗論較為接近,但我們要牢記歷史的教訓,避免滑入否定理論作用的經(jīng)驗主義泥坑。在強調(diào)“相關(guān)性”的時候不要懷疑“因果性”的存在;在宣稱大數(shù)據(jù)的客觀性、中立性的時候,不要忘了不管數(shù)據(jù)的規(guī)模如何,大數(shù)據(jù)總會受制于自身的局限性和人的偏見。不要相信這樣的預(yù)言:“采用大數(shù)據(jù)挖掘,你不需要對數(shù)據(jù)提出任何問題,數(shù)據(jù)就會自動產(chǎn)生知識”。面對像大海一樣的巨量數(shù)據(jù),從事數(shù)據(jù)挖掘的科技人員最大的困惑是,我們想撈的“針”是什么?這海里究竟有沒有“針”?也就是說,我們需要知道要解決的問題是什么。從這個意義上講,“科學始于數(shù)據(jù)”與“科學始于問題”應(yīng)有機地結(jié)合起來。

對“原因”的追求是科學發(fā)展的永恒動力。但是,原因是追求不完的,人類在有限的時間內(nèi)不可能找到“終極真理”。在科學的探索途中,人們往往用“這是客觀規(guī)律”解釋世界,并不立即追問為什么有這樣的客觀規(guī)律。也就是說,傳統(tǒng)科學并非只追尋因果性,也可以用客觀規(guī)律作為結(jié)論。大數(shù)據(jù)研究的結(jié)果多半是一些新的知識或新的模型,這些知識和模型也可以用來預(yù)測未來,可以認為是一類局部性的客觀規(guī)律??茖W史上通過小數(shù)據(jù)模型發(fā)現(xiàn)一般性規(guī)律的例子不少,比如開普勒歸納的天體運動規(guī)律等;而大數(shù)據(jù)模型多半是發(fā)現(xiàn)一些特殊性的規(guī)律。物理學中的定律一般具有必然性,但大數(shù)據(jù)模型不一定具有必然性,也不一定具有可演繹性。大數(shù)據(jù)研究的對象往往是人的心理和社會,在知識階梯上位于較高層,其自然邊界是模糊的,但有更多的實踐特征。大數(shù)據(jù)研究者更重視知行合一,相信實踐論。大數(shù)據(jù)認識論有許多與傳統(tǒng)認識論不同的特點,我們不能因其特點不同就否定大數(shù)據(jù)方法的科學性。大數(shù)據(jù)研究挑戰(zhàn)了傳統(tǒng)認識論對因果性的偏愛,用數(shù)據(jù)規(guī)律補充了單一的因果規(guī)律,實現(xiàn)了唯理論和經(jīng)驗論的數(shù)據(jù)化統(tǒng)一,一種全新的大數(shù)據(jù)認識論正在形成。

3 正確認識大數(shù)據(jù)的價值和效益

3.1 大數(shù)據(jù)的價值主要體現(xiàn)為它的驅(qū)動效應(yīng)

人們總是期望從大數(shù)據(jù)中挖掘出意想不到的“大價值”。實際上大數(shù)據(jù)的價值主要體現(xiàn)在它的驅(qū)動效應(yīng),即帶動有關(guān)的科研和產(chǎn)業(yè)發(fā)展,提高各行各業(yè)通過數(shù)據(jù)分析解決困難問題和增值的能力。大數(shù)據(jù)對經(jīng)濟的貢獻并不完全反映在大數(shù)據(jù)公司的直接收入上,應(yīng)考慮對其他行業(yè)效率和質(zhì)量提高的貢獻。大數(shù)據(jù)是典型的通用技術(shù),理解通用技術(shù)要采用“蜜蜂模型”:蜜蜂的效益主要不是自己釀的蜂蜜,而是蜜蜂傳粉對農(nóng)業(yè)的貢獻。

電子計算機的創(chuàng)始人之一馮·諾依曼曾指出:“在每一門科學中,當通過研究那些與終極目標相比頗為樸實的問題,發(fā)展出一些可以不斷加以推廣的方法時,這門學科就得到了巨大的進展。”我們不必天天期盼奇跡出現(xiàn),多做一些“頗為樸實”的事情,實際的進步就在扎扎實實的努力之中。媒體喜歡宣傳一些令人驚奇的大數(shù)據(jù)成功案例,對這些案例我們應(yīng)保持清醒的頭腦。據(jù)Intel中國研究院首席工程師吳甘沙在一次報告中透露,所謂“啤酒加尿布”的數(shù)據(jù)挖掘經(jīng)典案例,其實是Teradata公司一位經(jīng)理編出來的“故事”,歷史上并沒有發(fā)生過[4]。即使有這個案例,也不說明大數(shù)據(jù)分析本身有什么神奇,大數(shù)據(jù)中看起來毫不相關(guān)的兩件事同時或相繼出現(xiàn)的現(xiàn)象比比皆是,關(guān)鍵是人的分析推理找出為什么兩件事物同時或相繼出現(xiàn),找對了理由才是新知識或新發(fā)現(xiàn)的規(guī)律,相關(guān)性本身并沒有多大價值。

有一個家喻戶曉的寓言可以從一個角度說明大數(shù)據(jù)的價值:一位老農(nóng)民臨終前告訴他的3個兒子,他在他家的地中埋藏了一罐金子,但沒有講埋在哪里。

他的兒子們把他家所有的地都深挖了一遍,沒有挖到金子,但由于深挖了土地,從此莊稼收成特別好。數(shù)據(jù)收集、分析的能力提高了,即使沒有發(fā)現(xiàn)什么普適的規(guī)律或令人完全想不到的新知識,大數(shù)據(jù)的價值也已逐步體現(xiàn)。

3.2 大數(shù)據(jù)的力量來自“大成智慧”

每一種數(shù)據(jù)來源都有一定的局限性和片面性,只有融合、集成各方面的原始數(shù)據(jù),才能反映事物的全貌。事物的本質(zhì)和規(guī)律隱藏在各種原始數(shù)據(jù)的相互關(guān)聯(lián)之中。不同的數(shù)據(jù)可能描述同一實體,但角度不同。對同一個問題,不同的數(shù)據(jù)能提供互補信息,可對問題有更深入的理解。因此在大數(shù)據(jù)分析中,匯集盡量多種來源的數(shù)據(jù)是關(guān)鍵。

數(shù)據(jù)科學是數(shù)學(統(tǒng)計、代數(shù)、拓撲等)、計算機科學、基礎(chǔ)科學和各種應(yīng)用科學融合的科學,類似錢學森先生提出的“大成智慧學”[5]。錢老指出:“必集大成,才能得智慧”。大數(shù)據(jù)能不能出智慧,關(guān)鍵在于對多種數(shù)據(jù)源的集成和融合。IEEE計算機學會最近發(fā)布了2014年的計算機技術(shù)發(fā)展趨勢預(yù)測報告,重點強調(diào)“無縫智慧(seamless intelligence)”。發(fā)展大數(shù)據(jù)的目標就是要獲得協(xié)同融合的“無縫智慧”。單靠一種數(shù)據(jù)源,即使數(shù)據(jù)規(guī)模很大,也可能出現(xiàn)“瞎子摸象”一樣的片面性。數(shù)據(jù)的開放共享不是錦上添花的工作,而是決定大數(shù)據(jù)成敗的必要前提。

大數(shù)據(jù)研究和應(yīng)用要改變過去各部門和各學科相互分割、獨立發(fā)展的傳統(tǒng)思路,重點不是支持單項技術(shù)和單個方法的發(fā)展,而是強調(diào)不同部門、不同學科的協(xié)作。數(shù)據(jù)科學不是垂直的“煙囪”,而是像環(huán)境、能源科學一樣的橫向集成科學。

3.3 大數(shù)據(jù)遠景燦爛,但近期不能期望太高

交流電問世時主要用作照明,根本想象不到今天無處不在的應(yīng)用。大數(shù)據(jù)技術(shù)也一樣,將來一定會產(chǎn)生許多現(xiàn)在想不到的應(yīng)用。我們不必擔心大數(shù)據(jù)的未來,但近期要非常務(wù)實地工作。人們往往對近期的發(fā)展估計過高,而對長期的發(fā)展估計不足。Gartner公司預(yù)測,大數(shù)據(jù)技術(shù)要在5~10年后才會成為較普遍采用的主流技術(shù),對發(fā)展大數(shù)據(jù)技術(shù)要有足夠的耐心。

大數(shù)據(jù)與其他信息技術(shù)一樣,在一段時間內(nèi)遵循指數(shù)發(fā)展規(guī)律。指數(shù)發(fā)展的特點是,從一段歷史時期衡量(至少30年),前期發(fā)展比較慢,經(jīng)過相當長時間(可能需要20年以上)的積累,會出現(xiàn)一個拐點,過了拐點以后,就會出現(xiàn)爆炸式的增長。但任何技術(shù)都不會永遠保持“指數(shù)性”增長,一般而言,高技術(shù)發(fā)展遵循Gartner公司描述的技術(shù)成熟度曲線(hype cycle),最后可能進入良性發(fā)展的穩(wěn)定狀態(tài)或者走向消亡。

需要采用大數(shù)據(jù)技術(shù)來解決的問題往往都是十分復(fù)雜的問題,比如社會計算、生命科學、腦科學等,這些問題絕不是幾代人的努力就可以解決的。宇宙經(jīng)過百億年的演化,才出現(xiàn)生物和人類,其復(fù)雜和巧妙堪稱絕倫,不要指望在我們這一代人手中就能徹底揭開其奧妙。展望數(shù)百萬年甚至更長遠的未來,大數(shù)據(jù)技術(shù)只是科學技術(shù)發(fā)展長河中的一朵浪花,對10~20年大數(shù)據(jù)研究可能取得的科學成就不能抱有不切實際的幻想。

4 從復(fù)雜性的角度看大數(shù)據(jù)研究和應(yīng)用面臨的挑戰(zhàn)

大數(shù)據(jù)技術(shù)和人類探索復(fù)雜性的努力有密切關(guān)系。20世紀70年代,新三論(耗散結(jié)構(gòu)論、協(xié)同論、突變論)的興起對幾百年來貫穿科學技術(shù)研究的還原論發(fā)起了挑戰(zhàn)。1984年蓋爾曼等3位諾貝爾獎得主成立以研究復(fù)雜性為主的圣菲研究所,提出超越還原論的口號,在科技界掀起了一場復(fù)雜性科學運動。雖然雷聲很大,但30年來并未取得預(yù)期的效果,其原因之一可能是當時還沒有出現(xiàn)解決復(fù)雜性的技術(shù)。

集成電路、計算機與通信技術(shù)的發(fā)展大大增強了人類研究和處理復(fù)雜問題的能力。大數(shù)據(jù)技術(shù)將復(fù)雜性科學的新思想發(fā)揚光大,可能使復(fù)雜性科學得以落地。復(fù)雜性科學是大數(shù)據(jù)技術(shù)的科學基礎(chǔ),大數(shù)據(jù)方法可以看作復(fù)雜性科學的技術(shù)實現(xiàn)。大數(shù)據(jù)方法為還原論與整體論的辯證統(tǒng)一提供了技術(shù)實現(xiàn)途徑。大數(shù)據(jù)研究要從復(fù)雜性研究中吸取營養(yǎng),從事數(shù)據(jù)科學研究的學者不但要了解20世紀的“新三論”,可能還要學習與超循環(huán)、混沌、分形和元胞自動機等理論有關(guān)的知識,擴大自己的視野,加深對大數(shù)據(jù)機理的理解。

大數(shù)據(jù)技術(shù)還不成熟,面對海量、異構(gòu)、動態(tài)變化的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理和分析技術(shù)難以應(yīng)對,現(xiàn)有的數(shù)據(jù)處理系統(tǒng)實現(xiàn)大數(shù)據(jù)應(yīng)用的效率較低,成本和能耗較大,而且難以擴展。這些挑戰(zhàn)大多來自數(shù)據(jù)本身的復(fù)雜性、計算的復(fù)雜性和信息系統(tǒng)的復(fù)雜性。

4.1 數(shù)據(jù)復(fù)雜性引起的挑戰(zhàn)

圖文檢索、主題發(fā)現(xiàn)、語義分析、情感分析等數(shù)據(jù)分析工作十分困難,其原因是大數(shù)據(jù)涉及復(fù)雜的類型、復(fù)雜的結(jié)構(gòu)和復(fù)雜的模式,數(shù)據(jù)本身具有很高的復(fù)雜性。目前,人們對大數(shù)據(jù)背后的物理意義缺乏理解,對數(shù)據(jù)之間的關(guān)聯(lián)規(guī)律認識不足,對大數(shù)據(jù)的復(fù)雜性和計算復(fù)雜性的內(nèi)在聯(lián)系也缺乏深刻理解,領(lǐng)域知識的缺乏制約了人們對大數(shù)據(jù)模型的發(fā)現(xiàn)和高效計算方法的設(shè)計。形式化或定量化地描述大數(shù)據(jù)復(fù)雜性的本質(zhì)特征及度量指標,需要深入研究數(shù)據(jù)復(fù)雜性的內(nèi)在機理。人腦的復(fù)雜性主要體現(xiàn)在千萬億級的樹突和軸突的鏈接,大數(shù)據(jù)的復(fù)雜性主要也體現(xiàn)在數(shù)據(jù)之間的相互關(guān)聯(lián)。理解數(shù)據(jù)之間關(guān)聯(lián)的奧秘可能是揭示微觀到宏觀“涌現(xiàn)”規(guī)律的突破口。大數(shù)據(jù)復(fù)雜性規(guī)律的研究有助于理解大數(shù)據(jù)復(fù)雜模式的本質(zhì)特征和生成機理,從而簡化大數(shù)據(jù)的表征,獲取更好的知識抽象。為此,需要建立多模態(tài)關(guān)聯(lián)關(guān)系下的數(shù)據(jù)分布理論和模型,理清數(shù)據(jù)復(fù)雜度和計算復(fù)雜度之間的內(nèi)在聯(lián)系,奠定大數(shù)據(jù)計算的理論基礎(chǔ)。

4.2 計算復(fù)雜性引起的挑戰(zhàn)

大數(shù)據(jù)計算不能像處理小樣本數(shù)據(jù)集那樣做全局數(shù)據(jù)的統(tǒng)計分析和迭代計算,在分析大數(shù)據(jù)時,需要重新審視和研究它的可計算性、計算復(fù)雜性和求解算法。大數(shù)據(jù)樣本量巨大,內(nèi)在關(guān)聯(lián)密切而復(fù)雜,價值密度分布極不均衡,這些特征對建立大數(shù)據(jù)計算范式提出了挑戰(zhàn)。對于PB級的數(shù)據(jù),即使只有線性復(fù)雜性的計算也難以實現(xiàn),而且,由于數(shù)據(jù)分布的稀疏性,可能做了許多無效計算。

傳統(tǒng)的計算復(fù)雜度是指某個問題求解時需要的時間空間與問題規(guī)模的函數(shù)關(guān)系,所謂具有多項式復(fù)雜性的算法是指當問題的規(guī)模增大時,計算時間和空間的增長速度在可容忍的范圍內(nèi)。傳統(tǒng)科學計算關(guān)注的重點是,針對給定規(guī)模的問題,如何“算得快”。而在大數(shù)據(jù)應(yīng)用中,尤其是流式計算中,往往對數(shù)據(jù)處理和分析的時間、空間有明確限制,比如網(wǎng)絡(luò)服務(wù)如果回應(yīng)時間超過幾秒甚至幾毫秒,就會丟失許多用戶。大數(shù)據(jù)應(yīng)用本質(zhì)上是在給定的時間、空間限制下,如何“算得多”。從“算得快”到“算得多”,考慮計算復(fù)雜性的思維邏輯有很大的轉(zhuǎn)變。所謂“算得多”并不是計算的數(shù)據(jù)量越大越好,需要探索從足夠多的數(shù)據(jù),到剛剛好的數(shù)據(jù),再到有價值的數(shù)據(jù)的按需約簡方法。

基于大數(shù)據(jù)求解困難問題的一條思路是放棄通用解,針對特殊的限制條件求具體問題的解。人類的認知問題一般都是NP難問題,但只要數(shù)據(jù)充分多,在限制條件下可以找到十分滿意的解,近幾年自動駕駛汽車取得重大進展就是很好的案例。為了降低計算量,需要研究基于自舉和采樣的局部計算和近似方法,提出不依賴于全量數(shù)據(jù)的新型算法理論,研究適應(yīng)大數(shù)據(jù)的非確定性算法等理論。

4.3 系統(tǒng)復(fù)雜性引起的挑戰(zhàn)

大數(shù)據(jù)對計算機系統(tǒng)的運行效率和能耗提出了苛刻要求,大數(shù)據(jù)處理系統(tǒng)的效能評價與優(yōu)化問題具有挑戰(zhàn)性,不但要求理清大數(shù)據(jù)的計算復(fù)雜性與系統(tǒng)效率、能耗間的關(guān)系,還要綜合度量系統(tǒng)的吞吐率、并行處理能力、作業(yè)計算精度、作業(yè)單位能耗等多種效能因素。針對大數(shù)據(jù)的價值稀疏性和訪問弱局部性的特點,需要研究大數(shù)據(jù)的分布式存儲和處理架構(gòu)。

大數(shù)據(jù)應(yīng)用涉及幾乎所有的領(lǐng)域,大數(shù)據(jù)的優(yōu)勢是能在長尾應(yīng)用中發(fā)現(xiàn)稀疏而珍貴的價值,但一種優(yōu)化的計算機系統(tǒng)結(jié)構(gòu)很難適應(yīng)各種不同的需求,碎片化的應(yīng)用大大增加了信息系統(tǒng)的復(fù)雜性,像昆蟲種類一樣多(500多萬種)的大數(shù)據(jù)和物聯(lián)網(wǎng)應(yīng)用如何形成手機一樣的巨大市場,這就是所謂“昆蟲綱悖論”[6]。為了化解計算機系統(tǒng)的復(fù)雜性,需要研究異構(gòu)計算系統(tǒng)和可塑計算技術(shù)。

大數(shù)據(jù)應(yīng)用中,計算機系統(tǒng)的負載發(fā)生了本質(zhì)性變化,計算機系統(tǒng)結(jié)構(gòu)需要革命性的重構(gòu)。信息系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn),關(guān)注的重點不是數(shù)據(jù)加工,而是數(shù)據(jù)的搬運;系統(tǒng)結(jié)構(gòu)設(shè)計的出發(fā)點要從重視單任務(wù)的完成時間轉(zhuǎn)變到提高系統(tǒng)吞吐率和并行處理能力,并發(fā)執(zhí)行的規(guī)模要提高到10億級以上。構(gòu)建以數(shù)據(jù)為中心的計算系統(tǒng)的基本思路是從根本上消除不必要的數(shù)據(jù)流動,必要的數(shù)據(jù)搬運也應(yīng)由“大象搬木頭”轉(zhuǎn)變?yōu)?ldquo;螞蟻搬大米”。

5 發(fā)展大數(shù)據(jù)應(yīng)避免的誤區(qū)

5.1 不要一味追求“數(shù)據(jù)規(guī)模大”

大數(shù)據(jù)主要難點不是數(shù)據(jù)量大,而是數(shù)據(jù)類型多樣、要求及時回應(yīng)和原始數(shù)據(jù)真假難辨?,F(xiàn)有數(shù)據(jù)庫軟件解決不了非結(jié)構(gòu)化數(shù)據(jù),要重視數(shù)據(jù)融合、數(shù)據(jù)格式的標準化和數(shù)據(jù)的互操作。采集的數(shù)據(jù)往往質(zhì)量不高是大數(shù)據(jù)的特點之一,但盡可能提高原始數(shù)據(jù)的質(zhì)量仍然值得重視。腦科學研究的最大問題就是采集的數(shù)據(jù)可信度差,基于可信度很差的數(shù)據(jù)難以分析出有價值的結(jié)果。

一味追求數(shù)據(jù)規(guī)模大不僅會造成浪費,而且效果未必很好。多個來源的小數(shù)據(jù)的集成融合可能挖掘出單一來源大數(shù)據(jù)得不到的大價值。應(yīng)多在數(shù)據(jù)的融合技術(shù)上下功夫,重視數(shù)據(jù)的開放與共享。所謂數(shù)據(jù)規(guī)模大與應(yīng)用領(lǐng)域有密切關(guān)系,有些領(lǐng)域幾個PB的數(shù)據(jù)未必算大,有些領(lǐng)域可能幾十TB已經(jīng)是很大的規(guī)模。

發(fā)展大數(shù)據(jù)不能無止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大眾、公正法治的良性發(fā)展道路,要像現(xiàn)在治理環(huán)境污染一樣,及早關(guān)注大數(shù)據(jù)可能帶來的“污染”和侵犯隱私等各種弊端。

5.2 不要“技術(shù)驅(qū)動”,要“應(yīng)用為先”

新的信息技術(shù)層出不窮,信息領(lǐng)域不斷冒出新概念、新名詞,估計繼“大數(shù)據(jù)”以后,“認知計算”、“可穿戴設(shè)備”、“機器人”等新技術(shù)又會進入炒作高峰。我們習慣于跟隨國外的熱潮,往往不自覺地跟著技術(shù)潮流走,最容易走上“技術(shù)驅(qū)動”的道路。實際上發(fā)展信息技術(shù)的目的是為人服務(wù),檢驗一切技術(shù)的唯一標準是應(yīng)用。我國發(fā)展大數(shù)據(jù)產(chǎn)業(yè)一定要堅持“應(yīng)用為先”的發(fā)展戰(zhàn)略,堅持應(yīng)用牽引的技術(shù)路線。技術(shù)有限,應(yīng)用無限。各地發(fā)展云計算和大數(shù)據(jù),一定要通過政策和各種措施調(diào)動應(yīng)用部門和創(chuàng)新企業(yè)的積極性,通過跨界的組合創(chuàng)新開拓新的應(yīng)用,從應(yīng)用中找出路。

5.3 不能拋棄“小數(shù)據(jù)”方法

流行的“大數(shù)據(jù)”定義是:無法通過目前主流軟件工具在合理時間內(nèi)采集、存儲、處理的數(shù)據(jù)集。這是用不能勝任的技術(shù)定義問題,可能導致認識的誤區(qū)。按照這種定義,人們可能只會重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實,目前各行各業(yè)碰到的數(shù)據(jù)處理多數(shù)還是“小數(shù)據(jù)”問題。我們應(yīng)重視實際碰到的問題,不管是大數(shù)據(jù)還是小數(shù)據(jù)。

統(tǒng)計學家們花了200多年,總結(jié)出認知數(shù)據(jù)過程中的種種陷阱,這些陷阱不會隨著數(shù)據(jù)量的增大而自動填平。大數(shù)據(jù)中有大量的小數(shù)據(jù)問題,大數(shù)據(jù)采集同樣會犯小數(shù)據(jù)采集一樣的統(tǒng)計偏差。Google公司的流感預(yù)測這兩年失靈,就是由于搜索推薦等人為的干預(yù)造成統(tǒng)計誤差。

大數(shù)據(jù)界流行一種看法:大數(shù)據(jù)不需要分析因果關(guān)系、不需要采樣、不需要精確數(shù)據(jù)。這種觀念不能絕對化,實際工作中要邏輯演繹和歸納相結(jié)合、白盒與黑盒研究相結(jié)合、大數(shù)據(jù)方法與小數(shù)據(jù)方法相結(jié)合。

5.4 要高度關(guān)注構(gòu)建大數(shù)據(jù)平臺的成本

目前全國各地都在建設(shè)大數(shù)據(jù)中心,呂梁山下都建立了容量達2 PB以上的數(shù)據(jù)處理中心,許多城市公安部門要求存儲3個月以上的高清監(jiān)控錄像。這些系統(tǒng)的成本都非常高。數(shù)據(jù)挖掘的價值是用成本換來的,不能不計成本,盲目建設(shè)大數(shù)據(jù)系統(tǒng)。什么數(shù)據(jù)需要保存,要保存多少時間,應(yīng)當根據(jù)可能的價值和所需的成本來決定。大數(shù)據(jù)系統(tǒng)技術(shù)還在研究之中,美國的E級超級計算機系統(tǒng)要求能耗降低1 000倍,計劃到2024年才能研制出來,用現(xiàn)在的技術(shù)構(gòu)建的巨型系統(tǒng)能耗極高。

我們不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,而是要比實際應(yīng)用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數(shù)據(jù)應(yīng)用,因地制宜發(fā)展大數(shù)據(jù)。發(fā)展大數(shù)據(jù)與實現(xiàn)信息化的策略一樣:目標要遠大、起步要精準、發(fā)展要快速。

作者,李國杰,男,博士,中國工程院院士?,F(xiàn)任中國科學院計算技術(shù)所首席科學家,曙光信息產(chǎn)業(yè)股份有限公司董事長,中國計算機學會名譽理事長,國家信息化專家咨詢委員會信息技術(shù)與新興產(chǎn)業(yè)專委會副主任,中國科學院學位委員會副主席,中國科學院大學計算機與控制學院院長,中國科學技術(shù)大學計算機科學與技術(shù)學院院長等。

以下為《對大數(shù)據(jù)的再認識》報告PPT全文:

1e80005945bacf860ac

1f700059a16515ec5d1

1f60005a3608249edb1

1f700059a1a00a34f46

1e20005a40555cfb185

1e20005a40c8dd94b49

1e80005946cdb382a6a

1f700059a2608bc27cf

1f700059a2bf79cf3b0

1e800059479af85b803

1f60005a36f2db05309

1e80005948004792877

1f60005a377d44e403c

1e800059486c6705421

1f700059a402444df53

1e80005948c16be97fb

1f60005a3809f0afc2a

1e20005a435fe58ba7e

1e20005a439c1f009e4

1f700059a4c654b77ba

1e8000594982a34e6dd

1f700059a58dfdc201e

1f60005a392ce4a3e99

1f60005a398e69db60e

1f700059a667811f782

1f700059a696c4a2f67

1e8000594a597a1fd07

1e8000594a7c5a0f41e

1f700059a75a1035578

1f700059a76a6a9b97e

1e8000594aae7a2bf86

1f700059a7b3c136c40

1f60005a3adca170b6d

1e8000594b27df3d93a

1e8000594b6c2121300

1e20005a4604f50537a

1e20005a4627030dd63

1e20005a466ee12c294

1e20005a4688ee01575

1f60005a3bea0227428

1e8000594c04d96e49f

1e20005a46ee7b6f4f8

1e8000594c51c5e92e8

1f60005a3c45414cf53

1e20005a477aa50bbd9

1e8000594d087e0549c

1f700059aa02fdf2407

1e20005a4812b6632fe

1e20005a485640810e1

1e20005a488a8c115c1

1e8000594e1855d84d5

 

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號