因?yàn)?Cambridge Analytica 分析用戶信息進(jìn)行操縱選舉的事件,F(xiàn)acebook如今深陷輿論旋渦,其CEO扎克伯格也在美國時(shí)間4月9日,即他出席美國國會(huì)聽證會(huì)的前一天與美國議員會(huì)面,并為Facebook不當(dāng)使用用戶數(shù)據(jù)道歉。但是,F(xiàn)acebook并非唯一一家收集互聯(lián)網(wǎng)用戶數(shù)據(jù)用于商業(yè)或政治目的的公司。
超過5000萬Facebook用戶的記錄被收集,凸顯出在線用戶挖掘的危險(xiǎn)性。而收集了這些數(shù)據(jù)的公司 Cambridge Analytica,則反映出了這些數(shù)據(jù)的各種利用可能性。Cambridge Analytica 用這些數(shù)據(jù)建立了5000萬用戶賬戶資料,然后在2016大選中用這些賬戶信息為共和黨候選人(特朗普)站臺(tái)。
然而,真正接受 Cambridge Analytica 承包商在線調(diào)查的用戶僅有27萬人。通過收集所有調(diào)查接收者社交網(wǎng)絡(luò)好友的信息,利用相對(duì)較少的用戶形成5000萬用戶的巨大數(shù)據(jù)庫,這種信息收集和利用能力顯露出了社交網(wǎng)絡(luò)的巨大力量。
與網(wǎng)上收集和用戶自愿提交不同,這次被搜刮信息的用戶絕大部分都是受害者,他們并沒有授權(quán) Cambridge Analytica 收集自己的數(shù)據(jù)。
這些數(shù)據(jù)根本就是從用戶手中強(qiáng)拿的,用戶本無意與任何第三方共享,尤其是這么一家之前根本沒聽過的公司。
Cambridge Analytica 從用戶那里騙到的個(gè)人信息的深度和廣度昭示著數(shù)據(jù)收集生態(tài)系統(tǒng)的危險(xiǎn)性。然而,企業(yè)和政治活動(dòng)人士才剛剛開始探索這些數(shù)據(jù)可以用來做些什么。除了可以直接推斷人們的政治觀點(diǎn)、健康問題和生活方式,Cambridge Analytica 還宣稱,人們的看法也是可以借此改變的。
Cambridge Analytica 事件中比較有趣的一點(diǎn)是,人們似乎傾向于輕視看起來像是廣告一樣的東西。但是,這些長得像廣告的東西向用戶饋送的,才是真正重要的。這并非單純的可口可樂vs百事可樂,它會(huì)扭曲你對(duì)時(shí)事的看法。
數(shù)據(jù)收集與分析公司能從你的線上數(shù)據(jù)中推斷出你的哪些屬性呢?
1. 匿名沒戲
互聯(lián)網(wǎng)上幾乎做不到匿名。即便對(duì)在線發(fā)布信息很謹(jǐn)慎的人都會(huì)發(fā)現(xiàn),通過數(shù)據(jù)收集和數(shù)據(jù)發(fā)布,大范圍分析往往能將看起來毫無關(guān)聯(lián)的事件或者匿名的活動(dòng)聯(lián)系在一起。
比如說,2008年的一篇論文中,德州大學(xué)奧斯汀分校的研究人員就發(fā)現(xiàn),在IMDb上發(fā)布了幾條電影推介的用戶,就身處Netflix用于調(diào)研目的而發(fā)布的匿名電影推薦的大型數(shù)據(jù)庫中。
這種泄露能造成重大影響。給流行電影打分的人會(huì)發(fā)現(xiàn)自己被納入了更大的數(shù)據(jù)集,自己私下打過分的其他成百上千部電影都與自己關(guān)聯(lián)了起來。
電影評(píng)分可揭示出評(píng)分者的多種屬性,比如性向、政治偏好和健康問題。雖然不應(yīng)該單單從電影偏好上進(jìn)行推斷,但在許多工作和社交場(chǎng)合,對(duì)《同志亦凡人》這種同性戀主題電影所持的觀點(diǎn)(在Netflix觀影記錄中會(huì)有所體現(xiàn)),往往比較敏感。
來自社交網(wǎng)絡(luò)、地理位置數(shù)據(jù)和在線閱讀偏好的數(shù)據(jù)也可應(yīng)用類似的關(guān)聯(lián)和分析技術(shù)。
2. 發(fā)現(xiàn)瀏覽習(xí)慣
瀏覽記錄能說明很多問題,而有興趣的公司和數(shù)據(jù)代理商就用各種各樣的辦法來收集此類信息。2016年,德國公共廣播電視公司NDR的一名調(diào)查記者和一名數(shù)據(jù)科學(xué)家發(fā)現(xiàn),名為 Web of Trust 的一款瀏覽器插件一直在收集300萬名德國用戶的瀏覽器歷史記錄。
由于很多社交媒體站點(diǎn)都在鏈接中帶有用戶ID,瀏覽器歷史記錄去匿名化并不難。某些案例中,僅僅知道某人使用的部分站點(diǎn)就足以在Web鏈接數(shù)據(jù)庫中找出他們。
完全不用瀏覽器插件也避免不了被標(biāo)定的命運(yùn)。某些情況下,各種漏洞就讓不道德的Web站點(diǎn)具備了發(fā)現(xiàn)瀏覽者是否瀏覽過其他站點(diǎn)的能力。這種“歷史嗅探”技術(shù)的用法很多,找到信息就像檢測(cè)鏈接是否被訪問過一樣簡單。
另外,廣告網(wǎng)絡(luò)還會(huì)從瀏覽過加載了其廣告的站點(diǎn)的任何瀏覽器上收集信息,在用戶瀏覽各個(gè)網(wǎng)站的時(shí)候通過安裝cookie或其他追蹤數(shù)據(jù)來標(biāo)記用戶。廣告情報(bào)公司eMarketer的數(shù)據(jù)顯示,消費(fèi)者對(duì)此類跟蹤技術(shù)的擔(dān)憂正是廣告攔截器使用率穩(wěn)步上升的原因之一——今年攔截器的使用率有望升至31%。
3. 確定政治立場(chǎng)
Cambridge Analytica 已因非法收集用戶數(shù)據(jù)用于政治活動(dòng)建模而處于輿論的風(fēng)口浪尖了。不過,該技術(shù)的準(zhǔn)確率很大程度上取決于所用的數(shù)據(jù),也不是總那么準(zhǔn)確。舉個(gè)例子,2013年,加拿大麥吉爾大學(xué)的2名研究人員發(fā)現(xiàn),其他研究論文就對(duì)通過機(jī)器學(xué)習(xí)檢測(cè)政治偏向性的能力太過樂觀了:驗(yàn)證數(shù)據(jù)集的收集方式才是模型準(zhǔn)確率的決定因素,不管過去的成果多么斐然,所用方法多么先進(jìn)。
但是,機(jī)器學(xué)習(xí)和自然語言處理技術(shù)如今已然大幅進(jìn)步。社交網(wǎng)絡(luò)提供商Lithium分析了推特用戶反饋,發(fā)現(xiàn)如果推文提到了其他用戶,其政治取向的分析結(jié)果就會(huì)更準(zhǔn)確。僅包含沒提到其他用戶的推文的訓(xùn)練數(shù)據(jù)集,其推斷準(zhǔn)確性就比包含了提到其他用戶的數(shù)據(jù)集低了20%。
Facebook用戶能看到社交網(wǎng)絡(luò)與自身利益和政治取向的緊密聯(lián)系。
4. 確定性取向
無論是電影評(píng)分還是瀏覽器歷史記錄,太多在線數(shù)據(jù)可被用于猜測(cè)用戶的性取向。不僅如此,還有其他技術(shù)甚至可以用更少的數(shù)據(jù)來推斷用戶取向。比如說,一張照片。
2017年的一篇爭議性論文中,斯坦福大學(xué)的兩名研究人員發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)可以檢測(cè)出人類面部特征與性向之間的聯(lián)系。部分人批評(píng)該研究是助長成見,還有其他研究則發(fā)現(xiàn)該識(shí)別引擎是對(duì)笑容和頭部姿勢(shì)之類的因素敏感。2018年,谷歌3名研究人員駁斥了該論文,他們發(fā)現(xiàn)一些詢問受訪者是否有某些特定習(xí)慣——比如戴眼鏡或留胡須等,也能得出相似的結(jié)論。
5. 健康狀況
消費(fèi)者的購買習(xí)慣透露出有關(guān)其個(gè)人生活的很多信息。購物習(xí)慣足以確定消費(fèi)者的健康問題,比如妊娠、糖尿病等。塔吉特百貨就曾為了提升其對(duì)準(zhǔn)媽媽客戶的識(shí)別率,而爬取了大量購物數(shù)據(jù),發(fā)現(xiàn)了與妊娠緊密相關(guān)的20多種產(chǎn)品?!都~約時(shí)報(bào)》2012年的一篇報(bào)道顯示,該公司甚至先于某高中女生的父親發(fā)現(xiàn)該名女生已懷孕。
消費(fèi)者四處留下信息。商家知道哪些人酗酒,哪些人在找躁郁癥的治療方案,他們什么都知道。
而且,搜索結(jié)果中彈出的很多網(wǎng)站其實(shí)都在收集和售賣網(wǎng)站訪客的數(shù)據(jù),要么自己收售,要么通過第三方廣告商這么干。賓夕法尼亞大學(xué)一名研究人員搜索了2000種常見疾病,發(fā)現(xiàn)搜索結(jié)果中90%的網(wǎng)站和廣告網(wǎng)絡(luò)都在跟蹤訪問者的興趣點(diǎn)。
6. 偵測(cè)情緒
科技巨頭蘋果、谷歌和Facebook,還有Affectiva之類專業(yè)初創(chuàng)公司,都已經(jīng)開始分析用戶的社交媒體發(fā)布內(nèi)容來衡量用戶發(fā)布當(dāng)時(shí)的情緒了。2014年的一份研究中,F(xiàn)acebook用機(jī)器學(xué)習(xí)基于情緒性內(nèi)容為社交媒體帖子進(jìn)行了分類,發(fā)現(xiàn)正面和負(fù)面內(nèi)容都具有傳染性,情緒可通過社交媒體廣為傳播。
蘋果和谷歌也在找尋檢測(cè)并利用情緒的方法。在2016年收購了Emotient公司的蘋果,在其Animoji和 Face ID 中運(yùn)用情緒跟蹤技術(shù)來捕捉并分類面部表情。谷歌則用情緒識(shí)別來分類圖像,并在其 Cloud Vision API 中為開發(fā)者提供該技術(shù)。
市場(chǎng)營銷人員期待將來會(huì)出現(xiàn)能自動(dòng)偵測(cè)消費(fèi)者挑選商品時(shí)情緒狀態(tài)的技術(shù),一些技術(shù)人員則認(rèn)為情緒敏感的機(jī)器(比如能感知駕駛員路怒傾向的汽車)才是未來發(fā)展方向。比如說,MIT孵化的初創(chuàng)公司Affectiva,為大量應(yīng)用程序分析了650萬張人臉以檢測(cè)情緒。
7. 位置軌跡
通過大多數(shù)人都隨身攜帶的設(shè)備——智能手機(jī),用戶的地理位置變化軌跡可以很容易地被記錄下來。只要智能手機(jī)連接上基站網(wǎng)絡(luò),其信息就在蜂窩提供商那里掛了個(gè)號(hào)。2011年,德國一位政治家從其電信提供商處獲得了他的位置追蹤數(shù)據(jù),描繪出了他在6個(gè)月時(shí)間范圍內(nèi)的活動(dòng)軌跡。
其他App也可能會(huì)收集用戶的位置信息,無論這些信息它需不需要。
而且,公司企業(yè)還會(huì)用其他方式收集消費(fèi)者的位置信息。比如說,司法機(jī)構(gòu)和公司企業(yè)就會(huì)用自動(dòng)牌照識(shí)別系統(tǒng)(ALPR)來追蹤套牌車。
總的說來,ALPR數(shù)據(jù)可以描繪出駕駛員的生活軌跡,甚至觸及美國憲法第一修正案所保護(hù)的那些活動(dòng)。因?yàn)槟膬耗膬憾加玫玫杰嚺?,ALPR用于跟蹤記錄大量普通民眾的行動(dòng)就有點(diǎn)煩人了,畢竟絕大多人都與犯罪無關(guān)。
EZPass和其他自動(dòng)收費(fèi)裝置也會(huì)記錄下用戶的位置。10月份,調(diào)查發(fā)現(xiàn),紐約市交通局利用EZPass脈沖轉(zhuǎn)發(fā)器跟蹤曼哈頓的交流狀態(tài)。
當(dāng)前數(shù)據(jù)經(jīng)濟(jì)大環(huán)境和消費(fèi)者隱私保護(hù)立法的欠缺,導(dǎo)致了數(shù)據(jù)收集市場(chǎng)的混亂,公司企業(yè)紛紛創(chuàng)建誘騙性服務(wù),吸引消費(fèi)者交出自身數(shù)據(jù)的使用權(quán),而且很多時(shí)候消費(fèi)者甚至都沒有意識(shí)到自己交出了什么。消費(fèi)者和互聯(lián)網(wǎng)公司之間需要有新的協(xié)議公約出現(xiàn),即默認(rèn)情況下保護(hù)用戶隱私而非偏向廣告商利益的新公約。