統(tǒng)計(jì)大數(shù)據(jù)面臨大挑戰(zhàn)

責(zé)任編輯:editor007

作者:趙志強(qiáng)

2015-12-01 17:31:57

摘自:中國(guó)信息報(bào)

大數(shù)據(jù)具有數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、價(jià)值密度低、處理速度快的特點(diǎn)。統(tǒng)計(jì)調(diào)查工作涉及了大量企業(yè)、家庭和個(gè)人的隱私數(shù)據(jù),如企業(yè)投資方向、人員信息、家庭收入、日常支出、消費(fèi)記錄等。

大數(shù)據(jù)具有數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、價(jià)值密度低、處理速度快的特點(diǎn)。在帶來(lái)各種光鮮機(jī)遇的同時(shí),大數(shù)據(jù)也帶來(lái)了新的挑戰(zhàn),尤其是關(guān)系國(guó)計(jì)民生的統(tǒng)計(jì)大數(shù)據(jù),如應(yīng)用不慎,達(dá)摩克利斯之劍可能隨時(shí)落下。

面臨的挑戰(zhàn)

在大數(shù)據(jù)被討論得最熱火朝天時(shí),“棱鏡門”為全世界敲響了警鐘。但多數(shù)人忽視了一個(gè)關(guān)鍵問(wèn)題,正是有了大數(shù)據(jù),才讓“棱鏡”項(xiàng)目得以順利實(shí)施,大數(shù)據(jù)技術(shù)在帶來(lái)機(jī)遇的同時(shí),帶來(lái)很多問(wèn)題。

巨大體量使得信息管理成本陡增。海量數(shù)據(jù)的管理是每一個(gè)大數(shù)據(jù)管理者的極大挑戰(zhàn)。在互聯(lián)網(wǎng)上,大數(shù)據(jù)是非常容易被發(fā)現(xiàn)的目標(biāo),已成為網(wǎng)絡(luò)黑客攻擊的首選對(duì)象。大量數(shù)據(jù)的集中存儲(chǔ)增加了泄露風(fēng)險(xiǎn),黑客的一次攻擊成功就能獲得比以往更多的數(shù)據(jù),黑客的攻擊收益遠(yuǎn)遠(yuǎn)大于進(jìn)攻成本。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)加工和存儲(chǔ)鏈條上的時(shí)空先后順序已被模糊,可擴(kuò)展的數(shù)據(jù)聯(lián)系使得安全防護(hù)更加困難。

在國(guó)家統(tǒng)計(jì)局聯(lián)網(wǎng)直報(bào)平臺(tái)上,有企業(yè)一套表、采購(gòu)經(jīng)理調(diào)查、工業(yè)生產(chǎn)者價(jià)格調(diào)查等網(wǎng)上直報(bào)項(xiàng)目,數(shù)以萬(wàn)計(jì)的被調(diào)查單位的數(shù)據(jù)匯聚在一起,是實(shí)實(shí)在在的統(tǒng)計(jì)大數(shù)據(jù),這里面蘊(yùn)藏著更復(fù)雜、更敏感、價(jià)值巨大的信息。從微觀角度來(lái)看,被調(diào)查單位的指標(biāo)直接反映了自身生產(chǎn)經(jīng)營(yíng)狀況;從宏觀角度來(lái)看,如果通過(guò)專業(yè)人員分析,透過(guò)這些數(shù)據(jù)更可以對(duì)經(jīng)濟(jì)運(yùn)行狀況和未來(lái)走勢(shì)一探端倪。目前,網(wǎng)上直報(bào)項(xiàng)目的登陸賬號(hào)多為被調(diào)查單位的法人代碼,默認(rèn)密碼一般為法人代碼,初次登陸后一般修改為“12356”、“11111111”等過(guò)于簡(jiǎn)單的密碼,這些數(shù)據(jù)在某種程度上會(huì)引來(lái)潛在攻擊者。

類型繁多加大了信息有效性驗(yàn)證難度。大數(shù)據(jù)時(shí)代,由于不再拘泥于特定的數(shù)據(jù)收集模式,數(shù)據(jù)來(lái)自于多維空間,各種非結(jié)構(gòu)化的數(shù)據(jù)與結(jié)構(gòu)化的數(shù)據(jù)混雜在一起。太多無(wú)用的信息造成信息不足或信息不匹配,如何從海量的數(shù)據(jù)中去偽存真,提取需要的數(shù)據(jù),是每一個(gè)大數(shù)據(jù)應(yīng)用者面臨的挑戰(zhàn)。

日常統(tǒng)計(jì)調(diào)查工作收集了大量統(tǒng)計(jì)數(shù)據(jù),通??梢砸劳兴惴ㄌ幚淼贸鲎邉?shì)和預(yù)測(cè)。但是,如果被調(diào)查單位上報(bào)的數(shù)據(jù)存在人為失誤,或者在收集數(shù)據(jù)的過(guò)程中出現(xiàn)了偶然的非人為失誤,導(dǎo)致數(shù)據(jù)本身出現(xiàn)了問(wèn)題,通過(guò)數(shù)據(jù)分析得出的結(jié)果也將不盡準(zhǔn)確。

低密度價(jià)值分布使得安全防御邊界有所擴(kuò)展。第一,大量的數(shù)據(jù)匯集,包括大量的企業(yè)運(yùn)營(yíng)數(shù)據(jù)、個(gè)人隱私和各種行為的細(xì)節(jié)記錄,數(shù)據(jù)的集中存儲(chǔ)增加了泄露風(fēng)險(xiǎn)。第二,一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)并沒(méi)有被明確界定,很多基于大數(shù)據(jù)的分析都未考慮到其中涉及的個(gè)體隱私問(wèn)題。第三,大數(shù)據(jù)對(duì)數(shù)據(jù)完整性、可用性和秘密性帶來(lái)挑戰(zhàn),在防止數(shù)據(jù)丟失、被盜取、被濫用和被破壞上存在一定的技術(shù)難度,傳統(tǒng)的安全工具不再像以前那么有用。

統(tǒng)計(jì)調(diào)查工作涉及了大量企業(yè)、家庭和個(gè)人的隱私數(shù)據(jù),如企業(yè)投資方向、人員信息、家庭收入、日常支出、消費(fèi)記錄等?!督y(tǒng)計(jì)法》第九條明確規(guī)定:“統(tǒng)計(jì)機(jī)構(gòu)和統(tǒng)計(jì)人員對(duì)在統(tǒng)計(jì)工作中知悉的國(guó)家秘密、商業(yè)秘密和個(gè)人信息,應(yīng)當(dāng)予以保密。”而在大數(shù)據(jù)時(shí)代,任何人都可以是信息的提供者和維護(hù)者,這種由先天的結(jié)構(gòu)性導(dǎo)入設(shè)計(jì)所帶來(lái)的變化,要采取必要的技術(shù)手段實(shí)現(xiàn)隱私保密。

快速處理要求使得獨(dú)立決策的比例顯著降低。大數(shù)據(jù)時(shí)代,對(duì)事物因果關(guān)系的關(guān)注,轉(zhuǎn)變?yōu)閷?duì)事物相關(guān)關(guān)系的關(guān)注。大數(shù)據(jù)系統(tǒng)是一種輔助決策系統(tǒng),事實(shí)上,大數(shù)據(jù)分析日益成為一項(xiàng)重要的業(yè)務(wù)決策流程。

宏觀經(jīng)濟(jì)失衡的發(fā)生,會(huì)給國(guó)民經(jīng)濟(jì)發(fā)展造成巨大損失,并引起經(jīng)濟(jì)大起大落、強(qiáng)烈波動(dòng)。國(guó)家統(tǒng)計(jì)局發(fā)布的經(jīng)濟(jì)預(yù)警指數(shù)包括工業(yè)生產(chǎn)指數(shù)、固定資產(chǎn)投資、城鎮(zhèn)居民人均可支配收入、居民消費(fèi)價(jià)格指數(shù)等十余個(gè)指標(biāo)。在經(jīng)濟(jì)運(yùn)行過(guò)程中,如何快速準(zhǔn)確地對(duì)經(jīng)濟(jì)的發(fā)展變化情況進(jìn)行預(yù)測(cè),在失衡發(fā)生前發(fā)出警報(bào),事先采取措施加以調(diào)節(jié),避免不良后果,是檢驗(yàn)統(tǒng)計(jì)大數(shù)據(jù)運(yùn)用效果最直接的體現(xiàn)。

應(yīng)對(duì)的策略

通過(guò)安全評(píng)估體系確保統(tǒng)計(jì)大數(shù)據(jù)安全。一是打造一支可靠的專業(yè)團(tuán)隊(duì)。大數(shù)據(jù)建設(shè)的每個(gè)環(huán)節(jié)都需要依靠專業(yè)人員完成,因此,必須培養(yǎng)和造就一支懂技術(shù)、懂管理、懂指揮的統(tǒng)計(jì)大數(shù)據(jù)建設(shè)專業(yè)團(tuán)隊(duì),為統(tǒng)計(jì)大數(shù)據(jù)管理人才提供保障。二是使用基于威脅特征建立實(shí)時(shí)匹配檢測(cè),基于統(tǒng)一的時(shí)間源消除高級(jí)可持續(xù)攻擊(APT)的可能性,精確控制大數(shù)據(jù)設(shè)計(jì)規(guī)模,削弱黑客可以利用的空間。三是建立安全評(píng)估體系,對(duì)于不同安全域要進(jìn)行準(zhǔn)確評(píng)估,加強(qiáng)保護(hù)關(guān)鍵信息索引,做好重要數(shù)據(jù)多重災(zāi)難備份工作,應(yīng)對(duì)大數(shù)據(jù)的災(zāi)難性損毀。

通過(guò)有效性驗(yàn)證確保統(tǒng)計(jì)大數(shù)據(jù)可靠。固定的傳播渠道所發(fā)布的數(shù)據(jù)往往有其針對(duì)性和傾向性,甚至帶有誤導(dǎo)性,這時(shí)就需要數(shù)據(jù)使用者具備一定的甄別能力,才能真正充分利用大數(shù)據(jù)實(shí)現(xiàn)自身價(jià)值。一是通過(guò)研究相關(guān)的算法,確保數(shù)據(jù)有效性,盡可能使數(shù)據(jù)類型具體化,增加對(duì)數(shù)據(jù)更細(xì)粒度的了解,縮小數(shù)據(jù)的聚焦范圍,定義數(shù)據(jù)的相關(guān)參數(shù),對(duì)數(shù)據(jù)進(jìn)行精細(xì)篩選。二是進(jìn)一步健全特征庫(kù),加強(qiáng)數(shù)據(jù)的交叉驗(yàn)證,通過(guò)邏輯沖突去偽存真。

通過(guò)確立權(quán)限邊界確保統(tǒng)計(jì)大數(shù)據(jù)隱私。一是在流程設(shè)計(jì)上,一定要將數(shù)據(jù)分散存儲(chǔ),任何一個(gè)存儲(chǔ)單元被黑客攻破,都不可能拿到數(shù)據(jù)的全集。同時(shí),使用過(guò)濾器監(jiān)控,一旦發(fā)現(xiàn)數(shù)據(jù)離開了用戶的網(wǎng)絡(luò),就自動(dòng)阻止數(shù)據(jù)的再次傳輸。二是確立權(quán)限管理邊界,構(gòu)建一體化的數(shù)據(jù)安全管理體系。使用加密手段把數(shù)據(jù)使用與數(shù)據(jù)保管分離,把密鑰與要保護(hù)的數(shù)據(jù)隔離開,通過(guò)USBKEY等硬件輔助對(duì)敏感數(shù)據(jù)的調(diào)用啟動(dòng)身份驗(yàn)證機(jī)制,定義產(chǎn)生、存儲(chǔ)、備份、恢復(fù)等密鑰管理生命周期,實(shí)現(xiàn)對(duì)數(shù)據(jù)的動(dòng)態(tài)加密管理。

通過(guò)科學(xué)建模實(shí)現(xiàn)統(tǒng)計(jì)大數(shù)據(jù)快速預(yù)警。大數(shù)據(jù)分析技術(shù)經(jīng)過(guò)這幾年的發(fā)展,已經(jīng)形成了一些比較成熟穩(wěn)定的模型算法,常見的模型算法有關(guān)聯(lián)規(guī)則分析(Apriori)、決策樹、神經(jīng)網(wǎng)絡(luò)、K-MEANS聚類等。這些算法模型有的適合預(yù)測(cè)趨勢(shì)和行為,有的適合關(guān)聯(lián)分析,有的適合聚類分析。每種模型算法都有其優(yōu)劣性,我們可以針對(duì)不同的需求,選擇合適的算法模型進(jìn)行統(tǒng)計(jì)大數(shù)據(jù)分析挖掘,從而利用實(shí)時(shí)數(shù)據(jù)進(jìn)行快速、精準(zhǔn)的經(jīng)濟(jì)預(yù)警。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)