大數(shù)據(jù)痛點(diǎn):政府部門不會輕易放開掌握的數(shù)據(jù)

責(zé)任編輯:editor006

作者:賀濤 孫愛民 肖輝龍

2016-03-21 16:58:49

摘自:《財(cái)經(jīng)》雜志

在政府和市場的雙重催動下,那些原本封存在服務(wù)器里的陳年數(shù)據(jù),成為一座座蘊(yùn)藏豐富的“金礦”。在陳濤看來,政府所擁有的公共數(shù)據(jù),是盤活大數(shù)據(jù)資源的坐標(biāo)系,這些資源是一個社會的基本信息,是核心數(shù)據(jù)。

在政府和市場的雙重催動下,那些原本封存在服務(wù)器里的陳年數(shù)據(jù),成為一座座蘊(yùn)藏豐富的“金礦”。然而,能真正做深度挖掘的企業(yè)并不多,這一領(lǐng)域正在等待著“殺手級”應(yīng)用的出現(xiàn)

大數(shù)據(jù)痛點(diǎn)

3月5日,國務(wù)院總理李克強(qiáng)在十二屆全國人大四次會議上作2016年政府工作報(bào)告時提到,當(dāng)前中國發(fā)展正處于這樣一個關(guān)鍵時期,必須培育壯大新動能,加快發(fā)展新經(jīng)濟(jì)。

這是政府工作報(bào)告中首次出現(xiàn)“新經(jīng)濟(jì)”概念。報(bào)告進(jìn)一步說明,要推動新技術(shù)、新產(chǎn)業(yè)、新業(yè)態(tài)加快成長。其中,在“十三五”時期主要目標(biāo)任務(wù)和重大舉措中,李克強(qiáng)提出,促進(jìn)大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)廣泛應(yīng)用。

去年9月國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》稱,國家政府?dāng)?shù)據(jù)統(tǒng)一開放平臺將在2018年底前建成,率先在氣象、環(huán)境、信用、交通、醫(yī)療、衛(wèi)生等20余項(xiàng)重要領(lǐng)域,實(shí)現(xiàn)公共數(shù)據(jù)資源合理適度向社會開放。今年的政府工作報(bào)告亦指出,加強(qiáng)政府自身建設(shè),提高施政能力和服務(wù)水平。重任千鈞惟擔(dān)當(dāng)。

不僅中國,大數(shù)據(jù)被各國政府都提到了前所未有的高度,公共數(shù)據(jù)開放也紛紛提上日程。

在政府和市場的雙重催動下,那些原本封存在服務(wù)器里的陳年數(shù)據(jù),成為一座座蘊(yùn)藏豐富的“金礦”,興奮的企業(yè)和研究人員一邊著手搜尋數(shù)據(jù),一邊將有價值數(shù)據(jù)按需篩選出來重構(gòu)。然而,能真正做深度挖掘的企業(yè)并不多,這一領(lǐng)域正在等待著“殺手級”應(yīng)用的出現(xiàn),助推金融、醫(yī)療健康、零售業(yè)、制造業(yè)等各行業(yè)產(chǎn)生根本性的變革。

——編者按

國務(wù)院總理李克強(qiáng)在作2016年政府工作報(bào)告時提到,促進(jìn)大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)廣泛應(yīng)用。其實(shí)自去年“兩會”起關(guān)注大數(shù)據(jù)的提案就不少,今年“兩會”的代表和委員們又開始提交新一輪為大數(shù)據(jù)鼓勁的提案。

全國政協(xié)委員劉慧、榮建勛、劉漢元等分別建議,構(gòu)建大數(shù)據(jù)平臺,遏制互聯(lián)網(wǎng)金融亂象、發(fā)展科技保險、讓農(nóng)業(yè)更有規(guī)劃。全國人大代表邵志清則提出議案,呼吁制定“大數(shù)據(jù)法”,規(guī)范政務(wù)數(shù)據(jù)的共享開放和市場數(shù)據(jù)的交易流通。

廣東人大常委會已經(jīng)建立了一個代表履職支撐平臺,運(yùn)用大數(shù)據(jù)為代表履職提供支撐。人大代表可通過“人大百科、履職資訊定制、議案建議、履職活動、履職溝通交流、聯(lián)系群眾輔助”等六個前臺服務(wù)子系統(tǒng),獲取和發(fā)布信息。

你,每一秒都可能產(chǎn)生或者使用一個不起眼的數(shù)據(jù):打車的路線、網(wǎng)上的交易、計(jì)步的APP、去醫(yī)院掛號、一張交通罰單、一次飯局等,這些痕跡都被有心的公司收集起來,再通過計(jì)算、重構(gòu),變成一個得心應(yīng)手的應(yīng)用,出售給你,或者讓你免費(fèi)使用,同時提供新的數(shù)據(jù)作為回饋。

大數(shù)據(jù)不僅是一種海量的數(shù)據(jù)狀態(tài)和相應(yīng)的數(shù)據(jù)處理技術(shù),也是一種思維方式、一項(xiàng)重要的基礎(chǔ)設(shè)施。2011年以來,大數(shù)據(jù)概念在中國火熱,傳道者和求學(xué)者涌現(xiàn),穿梭于眾多的大數(shù)據(jù)會議和論壇,以創(chuàng)新為己任的科技公司,都在踅摸著跟大數(shù)據(jù)產(chǎn)生關(guān)聯(lián)。

在剛剛結(jié)束的人機(jī)圍棋巔峰對決中,谷歌人工智能圍棋程序AlphaGo以4:1擊敗了人類選手李世石。人工智能界一片歡呼,這是深度學(xué)習(xí)+大數(shù)據(jù)的勝利。細(xì)想大數(shù)據(jù)被行業(yè)關(guān)注已5年了,實(shí)際能投入實(shí)用的大數(shù)據(jù)應(yīng)用并不多,讓人驚嘆的“殺手級”的應(yīng)用更是寥寥,反倒是深度學(xué)習(xí),通過與大數(shù)據(jù)的結(jié)合,獲得迅速發(fā)展。

國內(nèi)大數(shù)據(jù)領(lǐng)域的一些學(xué)者和業(yè)界人士抱怨:政府所掌握的公共大數(shù)據(jù)存在重重壁壘,難以共享,從源頭上有礙于創(chuàng)新。這一觀點(diǎn)有其合理之處,但并不全面。因?yàn)樗y以解釋,為何已經(jīng)手握海量數(shù)據(jù)的BAT(百度、阿里巴巴和騰訊)等國內(nèi)互聯(lián)網(wǎng)巨頭,也尚未用大數(shù)據(jù)技術(shù)挖掘出扛鼎之作。

事實(shí)上,這個令人興奮的新事物,仍處于摸索研究階段,大數(shù)據(jù)產(chǎn)業(yè)有必要重新審視自身的痛點(diǎn),尋找解決之道。

實(shí)戰(zhàn)低于預(yù)期

在高德信息技術(shù)有限公司(下稱高德)北京辦公室里,星羅棋布的辦公桌間豎立著一面LED顯示屏,上面是密密麻麻的紅點(diǎn)與曲線。

一名技術(shù)人員選定了城市與時間參數(shù),并選取長安街上一段長約300米的路段,屏幕上立即顯示出該路段實(shí)時通過的車輛,這些車輛的實(shí)時位置一目了然,系統(tǒng)還給出未來幾分鐘,甚至幾個小時內(nèi)的車流量預(yù)判。

這是高德智能出行業(yè)務(wù)的一部分,也是大數(shù)據(jù)應(yīng)用的一個實(shí)景。大數(shù)據(jù),或稱巨量資料,不僅描述了大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度。

大數(shù)據(jù)應(yīng)用已帶來可見的果實(shí)。高德公司估算,使用高德地圖躲避擁堵功能,平均每月為全部用戶節(jié)省時間達(dá)700年,節(jié)油高達(dá)1840萬升、價值1.3億元。

谷歌的AlphaGo也是一個突出的例子。一般來說,大數(shù)據(jù)的應(yīng)用場景是通過大數(shù)據(jù)分析獲得洞察,并基于這些洞察進(jìn)行預(yù)測,根據(jù)預(yù)測結(jié)果做出行動。而深度學(xué)習(xí)擅長傳統(tǒng)大數(shù)據(jù)分析中難以使用的語音、圖像等,它可以教授計(jì)算機(jī)逐級往下處理數(shù)據(jù),并能根據(jù)不同層級的數(shù)據(jù)做出修正,思考過程逐漸從簡單到復(fù)雜。這種接近人腦的學(xué)習(xí)方式,可以通過訓(xùn)練之后自行掌握概念,而且輸出結(jié)果會隨著數(shù)據(jù)處理量的增大而更加準(zhǔn)確。包括谷歌、IBM、微軟、Facebook等在內(nèi)的科技巨頭,在深度學(xué)習(xí)和大數(shù)據(jù)結(jié)合方面的投入越來越高。

雖然數(shù)據(jù)還沒有被列入企業(yè)的資產(chǎn)負(fù)債表,但大數(shù)據(jù)領(lǐng)袖、牛津大學(xué)教授維克托·舍恩伯格預(yù)測,這只是時間問題。數(shù)據(jù)資源將和土地、勞動力、資本等生產(chǎn)要素一樣,成為政府管理與企業(yè)盈利的戰(zhàn)略資源。

精準(zhǔn)營銷、醫(yī)療和金融這三大領(lǐng)域,目前被視為大數(shù)據(jù)最具前景的應(yīng)用領(lǐng)域。在大數(shù)據(jù)概念提出前,大型電商、醫(yī)療行業(yè)和金融企業(yè),基本應(yīng)用隨機(jī)抽樣分析。理論上,大數(shù)據(jù)分析的結(jié)果更精準(zhǔn),因?yàn)樗鼘⒃瓉淼男颖咀兂扇珮颖?。按維克托·舍恩伯格的說法,所謂大數(shù)據(jù)分析方法,就是不用抽樣調(diào)查這樣的捷徑,而采用所有數(shù)據(jù)的分析方法。

在分析自家電子商務(wù)平臺的客戶信用及行為數(shù)據(jù)后,阿里巴巴創(chuàng)生了螞蟻小貸、花唄、借唄等產(chǎn)品;騰訊數(shù)據(jù),則充分、完整記錄了人們在互聯(lián)網(wǎng)上的行為軌跡和社會屬性,可以從中挖掘、分辨出用戶的行為模式、興趣偏好等;由于搜索功能的精準(zhǔn)性,百度掌握了更多用戶的真實(shí)需求。

全球在大數(shù)據(jù)研究的投入已不少,2016年會更多。美國信息技術(shù)研究和分析公司Gartner預(yù)測,2016年全球在大數(shù)據(jù)方面的總花費(fèi)將達(dá)到2320億美元。

這一龐大的投入與實(shí)際產(chǎn)出,目前并不匹配?,F(xiàn)有的數(shù)據(jù)搜集和處理能力,常使電商看上去很不著調(diào),當(dāng)客戶從一個電商平臺購買一部手機(jī)后,下次再登錄時,電商可能簡單粗暴地又推送手機(jī)廣告;微信朋友圈的廣告推送,一直是網(wǎng)民取笑的槽點(diǎn)。

很多企業(yè)還是堅(jiān)持用傳統(tǒng)的隨機(jī)抽樣方法,這樣可以較低的成本、較少的數(shù)據(jù),進(jìn)行一定精確度的分析,比大數(shù)據(jù)分析要經(jīng)濟(jì)實(shí)惠。

聚合數(shù)據(jù)云計(jì)算事業(yè)部總監(jiān)商渭清在一次業(yè)內(nèi)論壇上表示,線上廣告投放,一般命中率是1.0%,做得好的能到1.3%。精準(zhǔn)營銷的命中率,應(yīng)該在3%或5%以上。

美國加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)系教授邁克·喬丹(Michael Jordan)認(rèn)為,目前的大數(shù)據(jù)給出的結(jié)果可靠性太低,如果急于應(yīng)用到實(shí)際中,就好比是土木工程還沒學(xué)好就開始造橋,結(jié)果可想而知。

窘境源自技術(shù)層面的缺失。一是業(yè)界對于大數(shù)據(jù)分析的價值邏輯缺乏足夠深刻的洞察,以致搭建的模型偏差較大;二是大數(shù)據(jù)分析中的某些重大要件或技術(shù)還不成熟。

美國對醫(yī)療大數(shù)據(jù)情有獨(dú)鐘,基礎(chǔ)建設(shè)整得不錯,相關(guān)研究開展也早,但是,“要形成好的應(yīng)用效果,美國估計(jì)還要等5年至10年”。清華大學(xué)統(tǒng)計(jì)學(xué)研究中心主任、哈佛大學(xué)統(tǒng)計(jì)系教授劉軍對《財(cái)經(jīng)》記者分析。

盡管在過去的五年里,全球大數(shù)據(jù)計(jì)算性能實(shí)現(xiàn)了超過20倍的增長,100TB數(shù)據(jù)排序時間由8274秒縮短到377秒。而實(shí)際上,很多業(yè)內(nèi)人士對大數(shù)據(jù),仍缺乏深刻的認(rèn)識。

信息技術(shù)研究和分析公司Gartner在2013年做的一項(xiàng)調(diào)查顯示,64%的企業(yè)表示正在投資或計(jì)劃投資大數(shù)據(jù)。然而,當(dāng)問及企業(yè)面臨的“大數(shù)據(jù)的挑戰(zhàn)”時,約56%的企業(yè)聲稱是“確定如何從大數(shù)據(jù)獲得價值”,41%是要“定義我們的大數(shù)據(jù)戰(zhàn)略”,另有23%的企業(yè)是為了“了解什么是大數(shù)據(jù)”。

美國杜克大學(xué)行為經(jīng)濟(jì)學(xué)教授丹·艾瑞里(Dan Ariely)曾將大數(shù)據(jù)技術(shù)比作未成年人的性行為,“每個人都談?wù)撍珱]人知道怎么做,每個人都以為其他人在做,所以每個人都宣稱他們在做。”

科大訊飛(27.93, 0.00, 0.00%)股份有限公司(下稱科大訊飛,002230.SZ)高級副總裁陳濤告訴《財(cái)經(jīng)》記者,熱炒大數(shù)據(jù)的背后,有IT行業(yè)在推動,為了出售服務(wù)器、存儲、服務(wù),過分渲染了大數(shù)據(jù)使用的急迫性。

誰握大數(shù)據(jù)

當(dāng)把不同來源、不同維度的數(shù)據(jù)關(guān)聯(lián)在一起,交叉挖掘分析,就有可能發(fā)生“化學(xué)反應(yīng)”,大數(shù)據(jù)因共享而增值。

高德的交通數(shù)據(jù)來源主要有兩個,一是眾包數(shù)據(jù),5億高德用戶在使用交通導(dǎo)航服務(wù)時,既是信息使用者,又是信息的分享者。高德副總裁、首席交通數(shù)據(jù)分析師董振寧告訴《財(cái)經(jīng)》記者,“通過眾包,每月從用戶那里收到超過60億公里檢測(數(shù)據(jù)),高德再用這些完善地圖數(shù)據(jù)。”

第二個來源,全國幾十萬輛出租車,及幾百萬輛物流車輛的數(shù)據(jù),這些數(shù)據(jù)經(jīng)交通后臺匯總、處理后,可實(shí)時計(jì)算出路況信息,反饋在用戶終端上。

據(jù)美國國際數(shù)據(jù)集團(tuán)(IDC)的數(shù)字世界研究報(bào)告顯示,2013年人類產(chǎn)生、復(fù)制和消費(fèi)的數(shù)據(jù)量達(dá)到4.4ZB(1ZB等于10萬億億字節(jié))。而到2020年,數(shù)據(jù)量將增長10倍,達(dá)到44ZB。

國內(nèi)除了高德這樣以數(shù)據(jù)為生的企業(yè),BAT通過網(wǎng)民的網(wǎng)購、理財(cái)、搜索,以及社交網(wǎng)絡(luò)等,也坐擁海量數(shù)據(jù)。百度大數(shù)據(jù),基于用戶在百度上的所有行為、檢索詞;騰訊掌握了海量的社交數(shù)據(jù);阿里巴巴擁有用戶的交易數(shù)據(jù)。此外,一批提供數(shù)據(jù)權(quán)益服務(wù)的數(shù)據(jù)公司也應(yīng)運(yùn)而生。

這些數(shù)據(jù)公司利用爬蟲技術(shù),抓取海量網(wǎng)頁上的數(shù)據(jù),按類將這些數(shù)據(jù)進(jìn)行整合梳理,再接入許多第三方數(shù)據(jù)。“像火車票購買數(shù)據(jù)和房屋買賣數(shù)據(jù),數(shù)據(jù)量不大,但是價值很高。”Sensors Data的創(chuàng)始人兼CEO桑文鋒告訴《財(cái)經(jīng)》記者,幾大電信運(yùn)營商也掌握了較多的用戶數(shù)據(jù)。

在移動互聯(lián)時代,由于每臺終端設(shè)備都“綁定”一個用戶,一旦將數(shù)據(jù)分享,合作者也就長期擁有了這些用戶,這導(dǎo)致整個業(yè)界的心態(tài)放不開,害怕用戶流失。

其實(shí),不像煤炭、石油等資源,用過之后不可再生,因而很難實(shí)現(xiàn)共享,數(shù)據(jù)資源可以重復(fù)使用,在共享中不斷產(chǎn)生新的價值。

為獲得更多資源,企業(yè)之間打破慣有忌諱,正在形成合作氛圍,一個個數(shù)據(jù)生態(tài)圈逐漸生長。

阿里巴巴數(shù)據(jù)事業(yè)部產(chǎn)品經(jīng)理王峰認(rèn)為,單純的數(shù)據(jù)交易和數(shù)據(jù)加工服務(wù)“很粗魯”。1月20日,阿里云宣布開放其大數(shù)據(jù)能力,發(fā)布全球首個一站式大數(shù)據(jù)平臺“數(shù)加”,如有數(shù)據(jù)開發(fā)能力的團(tuán)隊(duì)可入駐“數(shù)加”,借助上面的工具為各行各業(yè)提供數(shù)據(jù)服務(wù)。這是一個“普惠大數(shù)據(jù)”,即讓全球任何一個企業(yè)、個人都能用上大數(shù)據(jù)。

王峰表示,“數(shù)加”盡管不是免費(fèi)的,但是能夠幫合作伙伴把蛋糕做大,賺到更多錢。

即便是BAT,也“覬覦”著一個重量級的數(shù)據(jù)擁有者——各級政府。多年來,各級政府通過行政手段和公共管理過程,依法獲取了海量數(shù)據(jù)。絕大多數(shù)中央部委、省級政府部門的核心業(yè)務(wù)都有數(shù)據(jù)庫支撐。如公安部有一個覆蓋13億人口的人口數(shù)據(jù)庫,國家工商總局有企業(yè)法人數(shù)據(jù)庫,金融、醫(yī)療、稅務(wù)、質(zhì)檢、社保、教育等都有各自的信息庫。

在陳濤看來,政府所擁有的公共數(shù)據(jù),是盤活大數(shù)據(jù)資源的坐標(biāo)系,這些資源是一個社會的基本信息,是核心數(shù)據(jù)。

公共數(shù)據(jù)圍墻

政府部門不會輕易放開掌握的數(shù)據(jù)。

一位中外合資農(nóng)業(yè)公司的市場總監(jiān)就曾碰過釘子。他數(shù)次聯(lián)系國家氣象局,希望拿到一些農(nóng)業(yè)大省歷年的氣象數(shù)據(jù)和實(shí)時的觀測數(shù)據(jù)。通過數(shù)據(jù)分析,這家公司可以篩選出最適合當(dāng)?shù)氐姆N子,進(jìn)一步開發(fā)出手機(jī)APP,即時給農(nóng)民推送農(nóng)時建議。

全國政協(xié)委員、通威集團(tuán)董事局主席劉漢元在今年“兩會”的提案中提到,建設(shè)農(nóng)業(yè)大數(shù)據(jù)平臺,可以提前預(yù)測農(nóng)業(yè)產(chǎn)量,使農(nóng)業(yè)的生產(chǎn)更具計(jì)劃性。類似的農(nóng)業(yè)大數(shù)據(jù)服務(wù),美國孟山都公司旗下的Climate Corporation早已推出。

然而,政府機(jī)構(gòu)由于自身定位和責(zé)任機(jī)制,缺乏放開公共數(shù)據(jù)的動力。國家氣象局就婉拒了上述農(nóng)業(yè)公司市場總監(jiān)的數(shù)據(jù)合作請求。

氣象數(shù)據(jù)具有壟斷因素,氣象局如果不肯提供原始裸數(shù)據(jù),商業(yè)機(jī)構(gòu)是無計(jì)可施的。

商業(yè)類氣象服務(wù)的推廣則需要國家氣象部門授權(quán)。

從知識產(chǎn)權(quán)保護(hù)角度看,只有原始裸數(shù)據(jù),商業(yè)機(jī)構(gòu)可以無償抓取利用。如果被抓取的數(shù)據(jù)是經(jīng)氣象局二次加工的,那么這些數(shù)據(jù)就具有知識產(chǎn)權(quán),因?yàn)檫@時的數(shù)據(jù)里面增加了人的智力、勞動成本,所以氣象局向商業(yè)機(jī)構(gòu)收費(fèi)屬于合理行為。

公開報(bào)道顯示,天氣服務(wù)類軟件墨跡天氣上線之初,是從網(wǎng)上抓取的天氣數(shù)據(jù),后來氣象局找上門來要求付費(fèi),開價一年幾十萬元。這對初創(chuàng)的墨跡天氣來說,也是一筆大開銷,只好另想辦法。

一位業(yè)內(nèi)知情研究員介紹稱,氣象局有官員曾在一次論壇上表示,向抓取天氣數(shù)據(jù)的軟件公司收費(fèi),是政府定價行為,屬于有償服務(wù)。

即便用于研究,數(shù)據(jù)也并不易獲取。作為中國科學(xué)技術(shù)協(xié)會副主席,同時在清華大學(xué)、北京航空航天大學(xué)兼任教授,張勤有豐富的與公共部門項(xiàng)目合作的經(jīng)驗(yàn),他在一次學(xué)術(shù)會議上抱怨道,“搞大數(shù)據(jù)的人,卻時常感到?jīng)]有數(shù)據(jù)可用。”

張勤與北京一家醫(yī)院合作,運(yùn)用數(shù)據(jù)分析眩暈疾病的一些規(guī)律。合作醫(yī)院從多年積累的病例數(shù)據(jù)庫中隨機(jī)篩選出60多個案例。在統(tǒng)計(jì)學(xué)上看,這點(diǎn)數(shù)據(jù)量不夠消除“噪音”——數(shù)據(jù)干擾因素,很難發(fā)現(xiàn)有價值的規(guī)律,可合作醫(yī)院拒絕提供更多的案例。

張勤的遭遇,也是中國不少研究者和產(chǎn)業(yè)界的感受,公共數(shù)據(jù)資源太封閉。2015年4月,國際著名期刊《自然》刊文稱,中國的研究者現(xiàn)在連獲取普通信息都越來越困難,比如,機(jī)動車保有量的數(shù)據(jù)。原因是,大多數(shù)的公共領(lǐng)域數(shù)據(jù)都攥在官方機(jī)構(gòu)手里,其中有些機(jī)構(gòu)正在加強(qiáng)它們的壟斷地位,這使信息更難以獲取。

同樣出于利益考量,一些政府部門擔(dān)心,隨著數(shù)據(jù)的開放,本部門履職的行動自由會受到束縛,原來不透明的部門行為被公開后,可能招致輿論批評甚至訴訟,因而沒有意愿主動開放數(shù)據(jù)。

上海市市委書記韓正曾表示,當(dāng)前政府掌握著相對齊全的數(shù)據(jù),卻一直存在著縱向和橫向分割的問題,并沒有真正打通和共享。

政府機(jī)構(gòu)擁有公共數(shù)據(jù)無法適度開放,并不能使信息增值。挖掘政府大數(shù)據(jù)價值最好的辦法是,適度允許私營部門和社會公眾訪問。例如,香港公共數(shù)據(jù)開放網(wǎng)站“資料一線通”的口號就是“公共資料,增值利用”。

天津市信息中心工程師劉葉婷分析,由于在國家層面尚未構(gòu)建起完善的公共數(shù)據(jù)開放戰(zhàn)略,因此難以形成從中央到地方的多級公共數(shù)據(jù)開放體系。

一些地方政府和部門希望把握本地區(qū)、本部門的公共數(shù)據(jù),進(jìn)行商業(yè)開發(fā),做成轄區(qū)內(nèi)“統(tǒng)一”數(shù)據(jù)系統(tǒng)。這樣的系統(tǒng)開發(fā),可能在建成后涌現(xiàn)出一個地方性的,或者部門性的信息壟斷機(jī)構(gòu)。

拋開主觀意愿,官方機(jī)構(gòu)能不能拿出高質(zhì)量的數(shù)據(jù)資源,也是一個問題。

北京大學(xué)中國衛(wèi)生經(jīng)濟(jì)研究中心主任劉國恩與美國斯坦福大學(xué)合作,聚焦于中國醫(yī)院的管理水平,研究中要用到醫(yī)院地址、電話號碼、有多少床位,以及每年的死亡人數(shù)等數(shù)據(jù)。他以為這些醫(yī)院的基本信息,地方政府和衛(wèi)生計(jì)生部門手里肯定有,但兩年時間里,大概只湊齊了六成數(shù)據(jù)。

復(fù)旦大學(xué)數(shù)字與移動治理實(shí)驗(yàn)室的研究表明,開放政府?dāng)?shù)據(jù),首先應(yīng)在地方層面探索。目前地方政府的數(shù)據(jù)開放量較低。

科大訊飛2013年與安徽省蕪湖市合作開展社會管理服務(wù)項(xiàng)目。拿到地方政府提供的數(shù)據(jù)資源,科大訊飛的工作人員把數(shù)據(jù)清洗、比對后發(fā)現(xiàn),很多數(shù)據(jù)合在一起后對不上,甚至存在矛盾。比如,對比民政部門的死亡數(shù)據(jù)與公安部門的戶籍?dāng)?shù)據(jù)發(fā)現(xiàn),存在幾千人都去世了,還在發(fā)退休金的案例。

陳濤曾感慨,如果不是蕪湖市政府黨委書記與市長堅(jiān)持,“不交數(shù)據(jù)、就交帽子”,科大訊飛也很難拿到各部門掌握的數(shù)據(jù)資源。在與地方政府的合作中他還發(fā)現(xiàn),政府對數(shù)據(jù)的采樣頻度是比較低的,算不上嚴(yán)格意義的大數(shù)據(jù)。

工業(yè)和信息化部電子信息產(chǎn)業(yè)與信息化研究所所長李苑建議,政府的很多數(shù)據(jù)沒有集中管理,還處于信息孤島狀態(tài),這些都是開放數(shù)據(jù)需要解決的問題。

搭平臺立規(guī)則

一方面政府部門對所掌握的大數(shù)據(jù)開發(fā)利用,最缺乏的是技術(shù)與發(fā)掘數(shù)據(jù)價值的能力,另一方面政府部門自身有越來越強(qiáng)烈的大數(shù)據(jù)應(yīng)用需求。因此,如何放開和利用公共數(shù)據(jù),需明確規(guī)則。

中關(guān)村(8.89, 0.17, 1.95%)大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟副秘書長陳新河注意到大數(shù)據(jù)應(yīng)用會議上的有趣變化,2014年,大家談的都是精準(zhǔn)營銷,2015年談的多是傳統(tǒng)行業(yè),現(xiàn)在聚焦于政府、金融和醫(yī)療等領(lǐng)域,“政府,是一個最大的應(yīng)用軟件支付方”。

比如,很多大城市的政府職能部門,都面臨著如何讓城市變得更加智慧這一龐大的課題。

某地虛報(bào)了工業(yè)產(chǎn)值,但用電量和能耗卻沒有達(dá)到相應(yīng)的規(guī)模。這種異常很容易被大數(shù)據(jù)系統(tǒng)識別出來。發(fā)現(xiàn)異常后,相關(guān)部門展開復(fù)核,可以更有針對性地防止、打擊數(shù)據(jù)造假。

政府對大數(shù)據(jù)、云計(jì)算的需求增長,于是,與企業(yè)“點(diǎn)對點(diǎn)”的戰(zhàn)略合作協(xié)議增多。高德能夠拿到交通部門的數(shù)據(jù),是基于與交通部的合作框架,而這種合作又依賴于高德積累了十幾年的導(dǎo)航技術(shù)與智能交通的探索,這與政府現(xiàn)在或者未來的政策相契合,能給雙方帶來互惠互利的正反饋。

“用移動互聯(lián)網(wǎng)的創(chuàng)新思維,搭載大數(shù)據(jù)技術(shù)去改變政府的服務(wù),流動的是數(shù)據(jù),人不用再跑來跑去。”陳濤說。科大訊飛在人工智能方面的口碑,為其贏得安徽蕪湖項(xiàng)目的訂單。蕪湖在全國率先以數(shù)據(jù)交換、共享方式,整合全市政務(wù)資源,戶籍、人社、司法、衛(wèi)計(jì)等部門,將統(tǒng)計(jì)數(shù)據(jù)交給市政府,科大訊飛開發(fā)軟件,清洗這些數(shù)據(jù)后,統(tǒng)計(jì)匯總成一個個市民從出生到現(xiàn)在的所有證件、公開信息。

談判、合作、協(xié)商、協(xié)議,這種政府開發(fā)大數(shù)據(jù)的方式,只適合針對個別企業(yè)的合作。能拿到公共大數(shù)據(jù)的企業(yè),一類是技術(shù)在業(yè)內(nèi)獨(dú)具一格,或出身于事業(yè)單位、政府部門,另一類就是BAT這樣的互聯(lián)網(wǎng)巨頭。

雖然這看上去似乎對其他企業(yè)不公平,但公共數(shù)據(jù)先行向這兩類企業(yè)試水放行,有其合理之處:一方面這些公司的技術(shù)能力或者資源更強(qiáng),另一方面在大數(shù)據(jù)隱私保護(hù)方面也更可控。董振寧告訴《財(cái)經(jīng)》記者,“(與政府)合作有嚴(yán)格的規(guī)范制約,什么該做、什么不該做,雙方都有約定。”

作為研究者,劉國恩去找地方統(tǒng)計(jì)局、醫(yī)保局的領(lǐng)導(dǎo),對方好不容易拿出數(shù)據(jù)后,都會小心翼翼地再三囑咐千萬不要把數(shù)據(jù)拿出去。劉國恩也害怕自己一不小心觸碰紅線。他呼吁,一定盡快把法律的紅線劃清楚,“哪怕劃了以后,比以前的空間顯得更窄一點(diǎn),也要讓業(yè)內(nèi)知道這是紅線”。

開放公共數(shù)據(jù),也面臨著泄密風(fēng)險,這使政府部門也不得不謹(jǐn)小慎微。哪些數(shù)據(jù)可以公開,哪些數(shù)據(jù)需要脫敏,如何整合各個地方的數(shù)據(jù),地方官員對這些未必清楚。

從這個角度,張勤明白合作醫(yī)院的苦衷,“他們不愿意把數(shù)據(jù)拿出來,這涉及到隱私和知識產(chǎn)權(quán)兩方面”。最簡單的問題,病歷屬于電子數(shù)據(jù),到底屬于誰?法學(xué)界還存有很多爭議。

因?yàn)椴v的著作權(quán)屬于醫(yī)生,醫(yī)生的著作權(quán)又屬于醫(yī)院的職務(wù)行為,所以病歷屬于職務(wù)作品,而其中的數(shù)據(jù)還涉及患者個人隱私,因此,商業(yè)機(jī)構(gòu)如果想對醫(yī)療數(shù)據(jù)進(jìn)行使用開發(fā),就需事先征得醫(yī)院、患者等多方面的授權(quán)同意。

科技部早已意識到對科學(xué)數(shù)據(jù)共享的立法和政策,并已立項(xiàng)多個研究課題,北京大學(xué)法學(xué)院教授張平多年來一直承擔(dān)其中的課題,她向《財(cái)經(jīng)》記者介紹,政府公共部門在披露公共數(shù)據(jù)、科學(xué)數(shù)據(jù)等信息數(shù)據(jù)時,應(yīng)該注意避免披露涉及國家安全問題,或涉及個人隱私信息和商業(yè)秘密方面的數(shù)據(jù),否則會有法律的風(fēng)險。

因?yàn)橛脩綦[私信息、商業(yè)秘密等都屬于私權(quán)范圍,業(yè)內(nèi)常遵循“誰擁有誰控制”原則。

比如,美國就有“E-government Act”,俗稱陽光法、《信息自由法》《隱私權(quán)法》等,對政府掌握的信息公開的范圍有嚴(yán)格的規(guī)定。

同時在操作上,歐美國家的合同協(xié)議機(jī)制也相對完備。比如,去歐美國家大學(xué)實(shí)驗(yàn)室做研究員,剛進(jìn)去時就會被要求簽厚厚一摞合同協(xié)議,對所有涉及隱私數(shù)據(jù)等方面的使用和管理,都會提前約定好,一次性簽完合約。劉軍介紹,在美國,研究者和企業(yè)想拿到醫(yī)療數(shù)據(jù),“要填好多表,過很多關(guān)”。

開發(fā)使用數(shù)據(jù),較好的辦法是通過合同協(xié)議機(jī)制來約定,規(guī)避敏感數(shù)據(jù)泄露風(fēng)險,還可以采用數(shù)據(jù)脫敏技術(shù),即通過技術(shù)手段對個人數(shù)據(jù)信息去識別化。其中姓名、性別、身高、身份證號碼等都是需要重點(diǎn)進(jìn)行脫敏處理的數(shù)據(jù),尤其在醫(yī)療、金融、電信等領(lǐng)域,都包含大量這類數(shù)據(jù)信息。

但數(shù)據(jù)的知識產(chǎn)權(quán)問題,還需要法律界的研究。政府與企業(yè)合作數(shù)據(jù)開發(fā)項(xiàng)目,政府除了要處理可能涉及的個人隱私信息數(shù)據(jù)的泄露問題外,還應(yīng)處理好怎樣對開發(fā)后的數(shù)據(jù)定價的問題,因?yàn)檫@包括如何補(bǔ)償開發(fā)企業(yè)的投入成本等。另外,如何避免數(shù)據(jù)被過度商業(yè)性開發(fā)利用也值得深思。

“畢竟很多公共數(shù)據(jù)都是用納稅人的錢采集的,政府不應(yīng)該以此作為賺錢工具。”一位法律界人士對《財(cái)經(jīng)》記者表示。

在科學(xué)數(shù)據(jù)方面,歐美國家建立了匯交、共享的開放平臺和機(jī)制,同時還有科學(xué)數(shù)據(jù)的共享法律。中國還沒有統(tǒng)一的數(shù)據(jù)中心,沒有專門的管理法律,更沒有建立起完備的合同協(xié)議機(jī)制,這就給個人隱私數(shù)據(jù)的后續(xù)使用、管理留下了隱患。

美國聯(lián)邦政府在開放公共數(shù)據(jù)過程中,采取了階段性逐步開放策略,根據(jù)數(shù)據(jù)被需求度、涉密度等多個因素的考慮,將數(shù)據(jù)劃分為立即開放、短期內(nèi)開放、計(jì)劃開放、暫時無法開放四個類別。

業(yè)內(nèi)專家分析稱,每個國家在開放公共數(shù)據(jù)時,都受國家安全和國家利益驅(qū)動,會優(yōu)先考慮所開放的數(shù)據(jù)是否會對國家政治、經(jīng)濟(jì)安全造成負(fù)面影響,美國也不例外?;诖耍绹鴷⑦^去20年的公共數(shù)據(jù)開放,但如果涉及高精尖技術(shù)的數(shù)據(jù),就不會開放。

北京理工大學(xué)網(wǎng)絡(luò)法研究所研究員孟兆平認(rèn)為,中國政府開放公共數(shù)據(jù)應(yīng)基于開放式的數(shù)據(jù)平臺,可供各種需求者使用。首先要搭建起數(shù)據(jù)中心的基本模型,再考慮如何創(chuàng)新與企業(yè)合作開發(fā)數(shù)據(jù)的模式,使數(shù)據(jù)平臺能“自我供血”維持運(yùn)營。

2015年9月,國務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》稱,政府?dāng)?shù)據(jù)統(tǒng)一開放平臺將在2018年底前建成,率先在氣象、環(huán)境、信用、交通、醫(yī)療、衛(wèi)生等20余項(xiàng)重要領(lǐng)域,實(shí)現(xiàn)公共數(shù)據(jù)資源合理適度向社會開放。

“各部委真正去執(zhí)行綱要內(nèi)容,最快也要到今年兩會以后,綱要具體變?yōu)榱⒎⒁?guī)則還需要一定時間。”孟兆平說。

這不是一個容易完成的任務(wù)??萍疾吭鲞^科學(xué)數(shù)據(jù)匯交的工作,仍無法做到將所有數(shù)據(jù)整理到統(tǒng)一的數(shù)據(jù)庫中?,F(xiàn)實(shí)中,很多數(shù)據(jù)都散落在承擔(dān)不同項(xiàng)目的科研人員手里,只能按專業(yè)分類,分散在不同的數(shù)據(jù)中心和職能部門中。張平稱,實(shí)際上對于有些公共數(shù)據(jù),政府也無法全面掌握。

張平建議,國家應(yīng)當(dāng)通過投資和立法,加強(qiáng)對醫(yī)院、大學(xué)以及國家投資的科研項(xiàng)目產(chǎn)生的數(shù)據(jù)進(jìn)行管理。

另外,政府還應(yīng)采取不歧視政策,鼓勵全社會(包括私人部門)以工本費(fèi)(不超過數(shù)據(jù)復(fù)制和傳遞過程中產(chǎn)生的費(fèi)用)的價格使用數(shù)據(jù)。

迫于2018年數(shù)據(jù)開放的壓力,國家氣象局直屬企業(yè)華風(fēng)氣象傳媒集團(tuán)有限責(zé)任公司(下稱華風(fēng))開始尋找戰(zhàn)略合作者,希望借此來增強(qiáng)自身的數(shù)據(jù)分析能力,保持在氣象數(shù)據(jù)應(yīng)用方面的領(lǐng)先地位。

華風(fēng)的對手已經(jīng)隱現(xiàn)。2016年1月20日,阿里云宣布與國家氣象局達(dá)成合作,向公眾開放氣象服務(wù)數(shù)據(jù),并共同深挖氣象大數(shù)據(jù)的商業(yè)價值。

此舉讓華風(fēng)的一位項(xiàng)目負(fù)責(zé)人頗感意外,此次開放了國內(nèi)縣級以上站點(diǎn)實(shí)況,包含溫度、濕度、風(fēng)、氣壓、降水量、天氣現(xiàn)象等,都是核心數(shù)據(jù)。

開放公共數(shù)據(jù),意味著數(shù)據(jù)資源在政府、社會間實(shí)現(xiàn)自由流動,這是政府行為的一項(xiàng)重大變革,涉及部門越多、范圍越大,數(shù)據(jù)開放難度也就越大。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號