在愛德華·斯諾登曝光了美國國家安全局(NSA)要求IT公司為其提供通話錄音和數(shù)據(jù)的行徑之后,喬治·奧威爾的《1984》一下子銷量大增。到目前為止,人們對 “老大哥”還沒到真正熱愛的程度,但他們已經(jīng)準備好為確保安全而付出隱私被侵犯的代價。
大數(shù)據(jù)是繞不開的話題。商業(yè)公司掌握的個人信息正在迅速地增加,他們正在利用新型的分析方法和人工智能來打造他們的產(chǎn)品和服務,并對客戶的未來需求進行預測。谷歌的首席執(zhí)行官拉里·佩奇如此形容他理想中的科技成果——一個真心聰明的助手,能夠替你代勞,你不用操心,也不需要動腦。
這簡直像是生活在真正的“唐頓莊園”里(莊園里的貴族得到仆人與管家的周道服侍),有一臺電腦為你安排日程,規(guī)劃最佳的出行線路,向你推薦合你胃口的電影,找出最適合你搭乘的航班。這聽上去頗為誘人,我們每個人時間有限,都想過得輕松自在,與其被各色資訊輪番轟炸,被迫挑來選去,還不如尋求這種私人助手般的服務。
NSA的行動已經(jīng)進行了整整60年,事件的曝光足以讓大眾深感震驚,但我估計大多數(shù)人未必能明白他們自己每天究竟創(chuàng)造了多少可供追蹤的信息,也未必能清楚那些讓大數(shù)據(jù)企業(yè)得以利用這些信息的技術有了哪些最新的發(fā)展??萍歼M步日新月異,兩年前完全無法想象的東西,到今天已然成了家常便飯。
“前途光明卻也刺眼。那些掌握海量信息的企業(yè)對你的了解程度甚至超過你本人,他們將有能力預測你下一步的行動。“李開復說,他曾掌管谷歌中國地區(qū)的業(yè)務。
上周的專欄里,我把今天的谷歌和19世紀末的通用電氣做了比較,兩者都是引領技術革新浪潮的創(chuàng)新型工業(yè)企業(yè)。但另一方面,谷歌、亞馬遜、微軟和其他科技巨頭正在積聚的強大力量,這種力量需要小心翼翼地加以控制。
NSA和大數(shù)據(jù)企業(yè)將數(shù)據(jù)庫資源和計算能力用在了不同的地方,前者用它們來偵查間諜和恐怖分子,后者利用它們來將合適的服務提供給適合的用戶。他們同樣利用了超大型數(shù)據(jù)庫以及模式識別(pattern recognition)和網(wǎng)絡分析(network analysis)之類的技術手段。
從前沿科技的角度看,大數(shù)據(jù)逐漸變得和某一類人工智能相似,比如哪怕你拼錯了關鍵詞,搜索引擎還是能猜得到你本來打算搜索的東西。還可以像微軟去年在中國演示的那樣,實時將演講翻譯成另一種語言?;蛘咴诜治隽顺汕先f張圖片之后,學會辨別貓咪的照片。
IBM 的超級計算機 Watson 參加智力競賽節(jié)目“Jeopardy!”
“深度學習”指的是電腦以類似人類的方式進行學習的能力,值得一提的是谷歌已經(jīng)將這一領域的幾位先驅(qū)人物招至麾下,其中包括科學家兼作家雷·庫茲韋爾(Ray Kurzweil)。NSA向美國私人企業(yè)轉(zhuǎn)移了各項技術,其中就包括了“最尖端的‘機器學習’科技” (machine learning technologies)
這類軟件程序能從一些瑣碎的信息中推斷出許多結(jié)果,前提是信息的數(shù)量得足夠多,所以NSA才會努力從威瑞森(Verizon)和其他電信運營商那里獲取通話元數(shù)據(jù)(譯注:元數(shù)據(jù)可以理解成關于數(shù)據(jù)的數(shù)據(jù))。奧巴馬向美國民眾保證“沒有人在監(jiān)聽你們的通話”,但這些數(shù)據(jù)本身確實價值非凡。
哈佛大學的教授拉坦亞·斯維尼(Latanya Sweeney)進行研究發(fā)現(xiàn),如果在公共數(shù)據(jù)庫中進行交叉查驗,僅僅依靠年齡、性別和郵編信息,就能確認87%的人的身份。社交網(wǎng)絡和互聯(lián)網(wǎng)公司收集的數(shù)據(jù)也能辦到同樣的事情。
大數(shù)據(jù)公司之所以擁有超強能力,是因為他們將用戶個人信息和用戶行為的觀察結(jié)合在了一起。他們不僅知道人們買了什么,而且知道是在哪兒買的(由智能手機的GPS數(shù)據(jù)測算)。于是你才看到了各種“您可能會喜歡……“這類推算出來的數(shù)據(jù)。
如果我跑到印度去,在安卓手機上搜索“泰姬陵”,谷歌會優(yōu)先顯示北方邦的那座歷史名勝,要是我在倫敦市中心搜索同樣東西,跳出來的會是附近的孟加拉餐廳??赡茉龠^不久,傍晚時分,當我走在陌生城市的街上,智能手機會根據(jù)我之前給出的餐飲評價記錄,主動推送餐廳信息,問我是否需要預訂晚餐。
一方面,如果托了它的福,美餐了一頓,自然稱心如意??闪硪环矫妫缡澜缃?jīng)濟論壇發(fā)布的一份關于個人信息的報告里指出的:“‘推算數(shù)據(jù)’(Inferred data)好像是一位正盯著監(jiān)視屏,無所不知的老大哥。“
NOW THE “BIG DATA” IS WATCHING YOU.
由此引發(fā)的第一點憂慮便是:擁有了這樣的軟件之后,大數(shù)據(jù)企業(yè)變得難以匹敵。我們這些用戶為他們提供的數(shù)據(jù)越多,他們就能越好地預測我們的需求。機器腦瓜真的是越用越靈。
第二個是信任問題。社交網(wǎng)絡在用戶信息保護方面一直做得不好,他們目前只能留存一小部分信息,主要關于用戶的行為、習慣、對新興服務的意向等等。難怪NSA會找上這些網(wǎng)站,NSA能提供足夠的計算能力,而社交網(wǎng)絡上有海量的信息資源。
第三點是所有權(quán)問題。每個人都對自己的信息享有權(quán)利,但要是自己的信息和其他人的信息混在了一起,匯入了廣闊的數(shù)據(jù)庫當中,會是什么結(jié)果?要是我改變了主意,不希望別人獲得這些信息,它們還能不能被要回來?
最要緊的是,我們還不清楚這樣的技術意味著什么,畢竟我們才剛剛把一只腳跨入大數(shù)據(jù)的時代。大數(shù)據(jù)顯然有許多方面值得青睞,但要對它一見鐘情,恐怕并不容易。
反烏托邦主義的代表作《1984》