大數(shù)據(jù)面臨的挑戰(zhàn)復(fù)雜艱巨

責(zé)任編輯:editor007

2015-01-20 20:39:21

摘自:中國科學(xué)報

雖然大數(shù)據(jù)的前景燦爛,但在陳鯨看來,其面臨的挑戰(zhàn)也非常復(fù)雜和艱巨。陳鯨還談到了大數(shù)據(jù)管理易用性方面的挑戰(zhàn),“復(fù)雜的分析過程和難以理解的分析結(jié)果會制約各行各業(yè)從大數(shù)據(jù)中獲取知識的能力”。

大數(shù)據(jù)面臨的挑戰(zhàn)復(fù)雜艱巨

“未來的信息世界是"三分技術(shù),七分數(shù)據(jù)",得數(shù)據(jù)者得天下。”在近日于北京召開的大數(shù)據(jù)與數(shù)據(jù)科學(xué)進展主題論壇上,中國工程院院士陳鯨表示,繼實驗科學(xué)、理論科學(xué)、計算機科學(xué)之后,以大數(shù)據(jù)為代表的數(shù)據(jù)密集型科學(xué)將成為人類科學(xué)研究的第四大范式。

“大數(shù)據(jù)中蘊藏著關(guān)乎社會動向、市場變化、科技發(fā)展、國家安全的重要戰(zhàn)略資源。”陳鯨認為,大數(shù)據(jù)會為國內(nèi)處理器芯片自主研發(fā)行業(yè)提供重大機遇,也會有更多應(yīng)用數(shù)據(jù)技術(shù)的新興公司和經(jīng)營模式出現(xiàn)。

不過,雖然大數(shù)據(jù)的前景燦爛,但在陳鯨看來,其面臨的挑戰(zhàn)也非常復(fù)雜和艱巨。

首先便是數(shù)據(jù)的異構(gòu)性和不完備性。陳鯨解釋說,大數(shù)據(jù)來源多樣,且越來越多地分散在不同的管理系統(tǒng)中。據(jù)不完全統(tǒng)計,目前采集的數(shù)據(jù)85%以上是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),因此不能用已有的簡單數(shù)據(jù)結(jié)構(gòu)來描述。而傳統(tǒng)關(guān)系數(shù)據(jù)庫又無法高效處理這些復(fù)雜數(shù)據(jù)結(jié)構(gòu)表示的數(shù)據(jù)。數(shù)據(jù)的不完備性主要是指所獲取的大數(shù)據(jù)常常包含一些不完整信息和錯誤數(shù)據(jù)。因此,在進行大數(shù)據(jù)分析處理之前,必須對這種數(shù)據(jù)的不完備性進行有效處理。

另一個嚴峻挑戰(zhàn)便是大數(shù)據(jù)處理的時效性。隨著時間的流逝,大數(shù)據(jù)中所蘊涵的知識價值也隨之衰減,其價值與時效性密切相關(guān)。陳鯨表示,一般數(shù)據(jù)樣本量越大,分析處理時間會越長,但在許多情況下,大數(shù)據(jù)用戶要求立即獲得數(shù)據(jù)分析結(jié)果。這就要求為復(fù)雜結(jié)構(gòu)的數(shù)據(jù)建立合適的索引結(jié)構(gòu),并要求索引結(jié)構(gòu)的設(shè)計簡單、高效,且在數(shù)據(jù)模式發(fā)生變化時能很快進行適應(yīng)性調(diào)整。

陳鯨也提到了大數(shù)據(jù)應(yīng)用中的安全與隱私保護問題。“據(jù)當(dāng)前所掌握的資料分析:人們在互聯(lián)網(wǎng)上的一言一行,基本上都掌握在互聯(lián)網(wǎng)商家手中。例如,淘寶知道用戶的購物偏好,騰訊知道用戶的好友聯(lián)絡(luò)情況,百度知道用戶的檢索習(xí)慣等。而目前,中國還沒有專門的法律法規(guī)來界定用戶隱私。”另外,“如何在大數(shù)據(jù)環(huán)境下確保信息共享的安全性?如何為用戶提供更為精細的數(shù)據(jù)共享安全控制策略?這些問題都值得深入研究”。

高能耗則是陳鯨關(guān)注的制約大數(shù)據(jù)快速發(fā)展的另一個瓶頸。據(jù)2012年的資料顯示:谷歌數(shù)據(jù)中心的年電功率約為3億瓦,F(xiàn)acebook為6000萬瓦左右。最令人驚訝的是,在這些巨大能耗中,實際只有6%~12%的能量是真正用于響應(yīng)用戶查詢請求的,絕大部分電能則是被用來確保系統(tǒng)服務(wù)器處于正常待機狀態(tài),以應(yīng)對突如其來的用戶查詢網(wǎng)絡(luò)流量高峰。

對此,陳鯨建議,可以考慮采用新型低功耗硬件以及建立計算核心與二級緩存的直通通道,從應(yīng)用、編譯器、體系結(jié)構(gòu)等多方面協(xié)同優(yōu)化,另外就是引入可再生新能源。

陳鯨還談到了大數(shù)據(jù)管理易用性方面的挑戰(zhàn),“復(fù)雜的分析過程和難以理解的分析結(jié)果會制約各行各業(yè)從大數(shù)據(jù)中獲取知識的能力”。他認為,大數(shù)據(jù)分析結(jié)果的可視化呈現(xiàn),將是大數(shù)據(jù)管理易用性方面要解決的重要問題。

陳鯨同時強調(diào),我國亟待提出適合國情的大數(shù)據(jù)發(fā)展戰(zhàn)略和技術(shù)路線。“大數(shù)據(jù)研發(fā)計劃是搶占信息技術(shù)發(fā)展制高點的重大舉措,將解決數(shù)據(jù)爆炸性增長帶來的管控和利用難題,同時改進對大數(shù)據(jù)的獲取、管理、挖掘和利用能力,實現(xiàn)數(shù)據(jù)到知識、知識到?jīng)Q策、決策到行動的快速轉(zhuǎn)化,推動人類社會進一步向智能化邁進。”

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號