中國信通院技術(shù)與標(biāo)準(zhǔn)所移動(dòng)
互聯(lián)網(wǎng)與大數(shù)據(jù)部副主任 魏凱
轉(zhuǎn)眼間,研究大數(shù)據(jù)已經(jīng)五年了。過去五年,大數(shù)據(jù)理念已經(jīng)深入人心,“用數(shù)據(jù)說話”已經(jīng)成為所有人的共識(shí),數(shù)據(jù)成了堪比石油、黃金、鉆石的戰(zhàn)略資源。人們對(duì)大數(shù)據(jù)的認(rèn)識(shí)也更加具體化,數(shù)據(jù)無所謂大不大,有用最重要;數(shù)據(jù)是基礎(chǔ),但分析挖掘和應(yīng)用才是根本。
大數(shù)據(jù)五年來
取得明顯進(jìn)展
五年來,不僅對(duì)大數(shù)據(jù)的認(rèn)識(shí)經(jīng)歷了螺旋式上升,而且實(shí)踐逐漸落地,國內(nèi)的大數(shù)據(jù)產(chǎn)業(yè)政策日漸完善,技術(shù)、應(yīng)用和產(chǎn)業(yè)都取得了非常明顯的進(jìn)展。
一是政策持續(xù)完善。在頂層設(shè)計(jì)上,國務(wù)院《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》對(duì)政務(wù)數(shù)據(jù)共享開放、產(chǎn)業(yè)發(fā)展和安全三方面做了總體部署。數(shù)據(jù)開放共享方面的《政務(wù)信息資源共享管理暫行辦法》、產(chǎn)業(yè)方面的工信部《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020)》、數(shù)據(jù)安全方面的《中華人民共和國網(wǎng)絡(luò)安全法》等都已出臺(tái)。衛(wèi)計(jì)、農(nóng)業(yè)、檢察、稅務(wù)等部門還出臺(tái)了大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的具體政策。此外,17個(gè)省市發(fā)布了大數(shù)據(jù)發(fā)展規(guī)劃,十幾個(gè)省市設(shè)立了大數(shù)據(jù)管理局,8個(gè)國家大數(shù)據(jù)綜合試驗(yàn)區(qū)、11個(gè)國家工程實(shí)驗(yàn)室啟動(dòng)建設(shè)??梢哉f,適應(yīng)大數(shù)據(jù)發(fā)展的政策環(huán)境已經(jīng)初步形成。
二是技術(shù)穩(wěn)步提升。開源給國內(nèi)產(chǎn)業(yè)界提供了一個(gè)跳板,讓我們與國際上大數(shù)據(jù)技術(shù)先進(jìn)水平的差距在不斷縮小。2014~2016年,百度、阿里和騰訊先后拿下國際上知名的Sort Benchmark大賽冠軍。這個(gè)競(jìng)賽全面比拼分布式系統(tǒng)軟件架構(gòu)能力,包括海量數(shù)據(jù)分布式存儲(chǔ)、計(jì)算任務(wù)切片調(diào)度、節(jié)點(diǎn)通信協(xié)調(diào)同步、數(shù)據(jù)計(jì)算監(jiān)控、硬件架構(gòu)等方面的能力。而這一賽事2014年之前的冠軍均被微軟、Yahoo、亞馬遜等包攬。這從一個(gè)側(cè)面反映了我國產(chǎn)業(yè)界在大數(shù)據(jù)處理技術(shù)水平上的快速提升。與此同時(shí),還有像一批國產(chǎn)化的商用大數(shù)據(jù)平臺(tái)產(chǎn)品崛起,底層技術(shù)越來越扎實(shí)。
三是應(yīng)用逐漸落地。比如,在金融領(lǐng)域,2016年商業(yè)銀行全面部署大數(shù)據(jù)基礎(chǔ)設(shè)施,五大國有銀行、股份制、城商行和農(nóng)商行已經(jīng)逐步開始了從傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)向大數(shù)據(jù)平臺(tái)架構(gòu)的轉(zhuǎn)型改造過程,基于大數(shù)據(jù)風(fēng)控的“秒貸”業(yè)務(wù)越來越普及,不僅提升了貸款效率,還擴(kuò)大了普惠金融的覆蓋面。在電信領(lǐng)域,中國電信的大數(shù)據(jù)平臺(tái)已經(jīng)擴(kuò)展到31個(gè)省,匯聚了全國的基礎(chǔ)數(shù)據(jù)形成了“天翼大數(shù)據(jù)”服務(wù)能力;中國聯(lián)通也實(shí)現(xiàn)了數(shù)據(jù)整合,大數(shù)據(jù)產(chǎn)品體系已經(jīng)推出征信、指數(shù)、營銷等六大產(chǎn)品種類。
四是產(chǎn)業(yè)快速崛起。圍繞數(shù)據(jù)的產(chǎn)生、匯聚、處理、應(yīng)用等環(huán)節(jié)的產(chǎn)業(yè)生態(tài)從無到有,不斷壯大。中國信息通信研究院發(fā)布的《中國大數(shù)據(jù)產(chǎn)業(yè)調(diào)查報(bào)告(2017年)》顯示,2016年中國大數(shù)據(jù)核心產(chǎn)業(yè)(軟件、硬件及服務(wù))的市場(chǎng)規(guī)模為168億元,較2015年增速達(dá)45%,預(yù)計(jì)到2020年將達(dá)到578億元。2016年獲得融資的企業(yè)數(shù)量達(dá)到400多家,2017年前3個(gè)月有150多家企業(yè)獲得融資,其中半數(shù)為中國公司,資本源源不斷地投向大數(shù)據(jù)領(lǐng)域。
大數(shù)據(jù)代表了一種現(xiàn)象,即數(shù)據(jù)的指數(shù)增長超過了人們管理、處理和應(yīng)用數(shù)據(jù)的能力的增長,產(chǎn)生了一個(gè)“剪刀差”,而且這個(gè)“剪刀差”無疑將長期存在。無論是對(duì)一個(gè)國家還是一個(gè)企業(yè),誰能在縮小大數(shù)據(jù)剪刀差上拔得頭籌,把數(shù)據(jù)用好,就能占有競(jìng)爭優(yōu)勢(shì)。
未來大數(shù)據(jù)
發(fā)展方向
大數(shù)據(jù)前景十分廣闊,但也應(yīng)該看到,還有很多問題等著我們?nèi)ヒ粋€(gè)個(gè)解決,比如以下幾點(diǎn):
一是打破數(shù)據(jù)孤島。人人都想要?jiǎng)e人的數(shù)據(jù),但都不愿意把自己的數(shù)據(jù)給別人。與此同時(shí),以前信息系統(tǒng)建設(shè)都從一個(gè)個(gè)“煙囪”開始,數(shù)據(jù)缺乏互通的技術(shù)基礎(chǔ)。從國家層面到企業(yè)內(nèi)部,情況大同小異。麥肯錫2016年年底的一份報(bào)告顯示,大數(shù)據(jù)在很多領(lǐng)域沒有達(dá)到預(yù)期效果,很重要的原因就是數(shù)據(jù)割裂。這些年,推動(dòng)數(shù)據(jù)開放共享的政策舉措一直在加強(qiáng),政策已經(jīng)很給力了,但效果與預(yù)期還有差距,碰到了瓶頸。政策再往前,仿佛遇到一堵高高的墻,這時(shí)就需要技術(shù)“拉一把”。的確,數(shù)據(jù)共享技術(shù)供應(yīng)有些滯后了。未來,如果同態(tài)加密、差分隱私、多方安全計(jì)算、零知識(shí)證明等技術(shù)能取得突破,數(shù)據(jù)共享就能再前進(jìn)一大步。區(qū)塊鏈的共享賬本、集體維護(hù)、難以篡改特性,也有望助推數(shù)據(jù)共享。
二是數(shù)據(jù)資產(chǎn)管理。數(shù)據(jù)分析工作,往往有80%的時(shí)間和精力都耗費(fèi)在搜集、清洗和加工數(shù)據(jù)上。很多單位大數(shù)據(jù)應(yīng)用效果不佳,多半問題出在數(shù)據(jù)管理上。數(shù)據(jù)管理從長期來說是戰(zhàn)略層面的事情,每個(gè)企業(yè)都將成為數(shù)據(jù)驅(qū)動(dòng)的企業(yè)。
三是深化領(lǐng)域應(yīng)用。雖然大數(shù)據(jù)的應(yīng)用取得了一定進(jìn)展,在互聯(lián)網(wǎng)、金融、電信等領(lǐng)域產(chǎn)生了實(shí)實(shí)在在的效益,醫(yī)療、工業(yè)領(lǐng)域也正在加速。但總體上只能說剛剛走出了小半步。一類是“平行替代”,如用金融和電信行業(yè)用Hadoop來重構(gòu)原來的昂貴的數(shù)據(jù)倉庫。另一類只能算“補(bǔ)課”,如政務(wù)、醫(yī)療、工業(yè)等領(lǐng)域,正在做的工作是在原有業(yè)務(wù)系統(tǒng)之外,新建原來缺失的數(shù)據(jù)平臺(tái)。隨著這些“替代”型或“補(bǔ)課”型應(yīng)用的深入推進(jìn),未來業(yè)務(wù)與數(shù)據(jù)將加深融合,越來越多數(shù)據(jù)驅(qū)動(dòng)的新模式、新業(yè)態(tài)值得所有人期待,也只有這樣,數(shù)據(jù)強(qiáng)國才能落到實(shí)處。