大數(shù)據(jù)時(shí)代:三分技術(shù) 七分?jǐn)?shù)據(jù)

責(zé)任編輯:editor008

2015-01-22 09:41:31

摘自:中國(guó)科學(xué)報(bào)

引言:未來(lái)的信息世界是 "三分技術(shù),七分?jǐn)?shù)據(jù) ",得數(shù)據(jù)者得天下。大數(shù)據(jù)中蘊(yùn)藏著關(guān)乎社會(huì)動(dòng)向、市場(chǎng)變化、科技發(fā)展、國(guó)家安全的重要戰(zhàn)略資源?!标愽L認(rèn)為,大數(shù)據(jù)會(huì)為國(guó)內(nèi)處理器芯片自主研發(fā)行業(yè)提供重大機(jī)遇,也會(huì)有更多應(yīng)用數(shù)據(jù)技術(shù)的新興公司和經(jīng)營(yíng)模式出現(xiàn)。

引言:未來(lái)的信息世界是"三分技術(shù),七分?jǐn)?shù)據(jù)",得數(shù)據(jù)者得天下。大數(shù)據(jù)中蘊(yùn)藏著關(guān)乎社會(huì)動(dòng)向、市場(chǎng)變化、科技發(fā)展、國(guó)家安全的重要戰(zhàn)略資源。”陳鯨認(rèn)為,大數(shù)據(jù)會(huì)為國(guó)內(nèi)處理器芯片自主研發(fā)行業(yè)提供重大機(jī)遇,也會(huì)有更多應(yīng)用數(shù)據(jù)技術(shù)的新興公司和經(jīng)營(yíng)模式出現(xiàn)。

不過(guò),雖然大數(shù)據(jù)的前景燦爛,其面臨的挑戰(zhàn)也非常復(fù)雜和艱巨。

首先便是數(shù)據(jù)的異構(gòu)性和不完備性。大數(shù)據(jù)來(lái)源多樣,且越來(lái)越多地分散在不同的管理系統(tǒng)中。據(jù)不完全統(tǒng)計(jì),目前采集的數(shù)據(jù)85%以上是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),因此不能用已有的簡(jiǎn)單數(shù)據(jù)結(jié)構(gòu)來(lái)描述。而傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)又無(wú)法高效處理這些復(fù)雜數(shù)據(jù)結(jié)構(gòu)表示的數(shù)據(jù)。數(shù)據(jù)的不完備性主要是指所獲取的大數(shù)據(jù)常常包含一些不完整信息和錯(cuò)誤數(shù)據(jù)。因此,在進(jìn)行大數(shù)據(jù)分析處理之前,必須對(duì)這種數(shù)據(jù)的不完備性進(jìn)行有效處理。

另一個(gè)嚴(yán)峻挑戰(zhàn)便是大數(shù)據(jù)處理的時(shí)效性。隨著時(shí)間的流逝,大數(shù)據(jù)中所蘊(yùn)涵的知識(shí)價(jià)值也隨之衰減,其價(jià)值與時(shí)效性密切相關(guān)。一般數(shù)據(jù)樣本量越大,分析處理時(shí)間會(huì)越長(zhǎng),但在許多情況下,大數(shù)據(jù)用戶要求立即獲得數(shù)據(jù)分析結(jié)果。這就要求為復(fù)雜結(jié)構(gòu)的數(shù)據(jù)建立合適的索引結(jié)構(gòu),并要求索引結(jié)構(gòu)的設(shè)計(jì)簡(jiǎn)單、高效,且在數(shù)據(jù)模式發(fā)生變化時(shí)能很快進(jìn)行適應(yīng)性調(diào)整。

大數(shù)據(jù)應(yīng)用中也存在安全與隱私保護(hù)問(wèn)題。據(jù)當(dāng)前所掌握的資料分析:人們?cè)诨ヂ?lián)網(wǎng)上的一言一行,基本上都掌握在互聯(lián)網(wǎng)商家手中。例如,淘寶知道用戶的購(gòu)物偏好,騰訊知道用戶的好友聯(lián)絡(luò)情況,百度知道用戶的檢索習(xí)慣等。而目前,中國(guó)還沒(méi)有專門的法律法規(guī)來(lái)界定用戶隱私。另外,如何在大數(shù)據(jù)環(huán)境下確保信息共享的安全性?如何為用戶提供更為精細(xì)的數(shù)據(jù)共享安全控制策略?這些問(wèn)題都值得深入研究。

高能耗則是制約大數(shù)據(jù)快速發(fā)展的另一個(gè)瓶頸。據(jù)2012年的資料顯示:谷歌數(shù)據(jù)中心的年電功率約為3億瓦,F(xiàn)acebook為6000萬(wàn)瓦左右。最令人驚訝的是,在這些巨大能耗中,實(shí)際只有6%~12%的能量是真正用于響應(yīng)用戶查詢請(qǐng)求的,絕大部分電能則是被用來(lái)確保系統(tǒng)服務(wù)器處于正常待機(jī)狀態(tài),以應(yīng)對(duì)突如其來(lái)的用戶查詢網(wǎng)絡(luò)流量高峰。

對(duì)此,可以考慮采用新型低功耗硬件以及建立計(jì)算核心與二級(jí)緩存的直通通道,從應(yīng)用、編譯器、體系結(jié)構(gòu)等多方面協(xié)同優(yōu)化,另外就是引入可再生新能源。

復(fù)雜的分析過(guò)程和難以理解的分析結(jié)果會(huì)制約各行各業(yè)從大數(shù)據(jù)中獲取知識(shí)的能力,大數(shù)據(jù)分析結(jié)果的可視化呈現(xiàn),將是大數(shù)據(jù)管理易用性方面要解決的重要問(wèn)題。

D1Net評(píng)論:

我國(guó)亟待提出適合國(guó)情的大數(shù)據(jù)發(fā)展戰(zhàn)略和技術(shù)路線。大數(shù)據(jù)研發(fā)計(jì)劃是搶占信息技術(shù)發(fā)展制高點(diǎn)的重大舉措,將解決數(shù)據(jù)爆炸性增長(zhǎng)帶來(lái)的管控和利用難題,同時(shí)改進(jìn)對(duì)大數(shù)據(jù)的獲取、管理、挖掘和利用能力,實(shí)現(xiàn)數(shù)據(jù)到知識(shí)、知識(shí)到?jīng)Q策、決策到行動(dòng)的快速轉(zhuǎn)化,推動(dòng)人類社會(huì)進(jìn)一步向智能化邁進(jìn)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)