Facebook擁有相當(dāng)數(shù)量級(jí)的數(shù)據(jù),它掌握了超過(guò)十億用戶的個(gè)人習(xí)慣,這些數(shù)據(jù)擁有相當(dāng)可怕的力量,公司可以用這些數(shù)據(jù)來(lái)為客戶發(fā)布廣告甚至與其他公司或者客戶分享這些數(shù)據(jù)。這些數(shù)據(jù)還可以讓我們看到一個(gè)新的世界,幫助我們更好的了解我們所生活的世界。
最近Facebook通過(guò)其龐大的數(shù)據(jù)預(yù)測(cè)了全球用戶移民情況。在一篇博文中,F(xiàn)acebook的數(shù)據(jù)團(tuán)隊(duì)描述了“協(xié)調(diào)移民”的概念,意為許多人從一個(gè)地方移民到另一個(gè)地方。
根據(jù)Facebook從其社交網(wǎng)絡(luò)上收集到的信息,在印度、尼日利亞、土耳其等城市,越來(lái)越多的人從農(nóng)村搬到了海德拉巴(印度)、欽奈(印度)、亞拉格斯(尼日利亞)等這樣的大城市。Facebook稱這些城市為“目標(biāo)城市”,比如土耳其的伊斯坦布爾,吸引了大量外國(guó)移民。而在美國(guó),協(xié)調(diào)遷移吸引的更多也是外國(guó)移民,從古巴移民到邁阿密,從墨西哥移民到芝加哥、休斯頓、達(dá)拉斯、洛杉磯等這樣的大城市。
問(wèn)題是Facebook提供的只是一個(gè)小數(shù)據(jù),從某種意義上說(shuō),不過(guò)分公開數(shù)據(jù)是他們應(yīng)該做的。我們不希望社交巨頭過(guò)分的公開我們的私人數(shù)據(jù)。但這也意味著外部數(shù)據(jù)科學(xué)家沒(méi)有辦法審查Fcaebook公布的調(diào)查結(jié)果是否可靠。
這是一個(gè)難題,至少在可預(yù)見的未來(lái)會(huì)一直持續(xù)下去。此前有匿名數(shù)據(jù)對(duì)外公布過(guò),但是正如我們看到的那樣,不是所有的匿名數(shù)據(jù)都是匿名的。這不是科學(xué)家第一次使用Facebook數(shù)據(jù)來(lái)分析移民情況。2010年,蘋果前開發(fā)者Pete Warden就發(fā)表過(guò)一篇博文,他詳細(xì)分析了從Facebook的文件中得到的數(shù)據(jù),雖然他的初衷是與大家一起分享數(shù)據(jù),但是這卻受到了Facebook的法律訴訟。
現(xiàn)在,F(xiàn)acebook已經(jīng)習(xí)慣了發(fā)布基于自有數(shù)據(jù)的分析報(bào)告,包括移民分析以及其他眾多數(shù)據(jù)內(nèi)容。但是Warden對(duì)此深表懷疑:“這些數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,我認(rèn)為這些研究是有問(wèn)題的,他們給我們的往往只是一個(gè)片面的觀點(diǎn)。”Warden現(xiàn)在是Jetpac數(shù)字旅游指南的CTO,他告訴WIRED:“從我們自己的經(jīng)歷就能發(fā)現(xiàn),相同的數(shù)據(jù)往往會(huì)有很多種不同的解釋。但是因?yàn)橹话l(fā)布結(jié)果,而沒(méi)有公布原始數(shù)據(jù),所以這可能只是其中的一種解釋。”
Warden表示,雖然許多世界頂尖數(shù)據(jù)科學(xué)家都在Facebook這樣的互聯(lián)網(wǎng)公司工作,但是這并不意味著就能解決整個(gè)問(wèn)題。回顧他們所做的工作,他們依舊需要外界的幫助。他相信外界壓力會(huì)推動(dòng)Facebook這樣的公司公布越來(lái)越多的數(shù)據(jù),也希望看到越來(lái)越多的學(xué)者一起來(lái)推動(dòng)這類信息的公布。很多記者和創(chuàng)業(yè)團(tuán)隊(duì)通過(guò)使用公共信息以及調(diào)查而獲得的成效遠(yuǎn)遠(yuǎn)超過(guò)了那些曾被信任的科學(xué)家公布的數(shù)據(jù)。
Devin Gaffney,一家叫做“小鳥”的創(chuàng)業(yè)公司的開發(fā)人員,擁有牛津大學(xué)互聯(lián)網(wǎng)社交科學(xué)碩士學(xué)位,他表示:“很多研究人員已經(jīng)開始這樣做,比如Danah Boyd、Helen Nissenbaum等社會(huì)科學(xué)家。人際互動(dòng)中潛藏了大量有用數(shù)據(jù),但這些數(shù)據(jù)的結(jié)果更加偏向互聯(lián)網(wǎng)用戶,不過(guò)相比以前,有了這些數(shù)據(jù)已經(jīng)是一大進(jìn)步。而且現(xiàn)在完成這些工作再也不用調(diào)查成千上萬(wàn)的用戶了,只需要一些代碼就可以解決。”
但隱私問(wèn)題仍然沒(méi)有解決。雖然許多學(xué)者正在試圖染指社交媒體,由于隱私問(wèn)題的存在,互聯(lián)網(wǎng)公司越來(lái)越不愿意和其他公司分享這些數(shù)據(jù)。許多研究人員即使拿到了數(shù)據(jù),他們也沒(méi)有辦法使用,這取決于互聯(lián)網(wǎng)公司的服務(wù)條款或者大學(xué)的倫理政策是否允許他們這么做。
很多研究人員從Twitter上拿到了數(shù)據(jù),因?yàn)檫@些信息都是公開的,不是私人的,這就意味著他們有權(quán)使用相關(guān)數(shù)據(jù)。如果從Twitter上收集到了相關(guān)數(shù)據(jù),但是服務(wù)條款注明不能使用它們,那么就意味著Twitter公布的結(jié)果無(wú)法得到復(fù)查。
一些公司正在通過(guò)責(zé)任制等方式與研究人員分析更多數(shù)據(jù)。著名數(shù)據(jù)網(wǎng)站OK Cupid公布了關(guān)于性愛(ài)的在線數(shù)據(jù),該公司的聯(lián)合創(chuàng)始人Christian Rudder說(shuō),他們經(jīng)常和研究人員共享數(shù)據(jù),雖然采取匿名化數(shù)據(jù),但是數(shù)據(jù)的信息量依舊足夠支持其理論。研究人員必須建立在學(xué)術(shù)背景上才能使用這些數(shù)據(jù),而不能用于商業(yè)用途。到目前為止,該公司只為10%左右的研究人員提供數(shù)據(jù)。公開數(shù)據(jù)是一個(gè)矛盾的問(wèn)題,但是他們希望這方面會(huì)變得更好。
他們不會(huì)提供應(yīng)用數(shù)據(jù)接口或者API,不允許任何人拿到他們網(wǎng)站的數(shù)據(jù),如果他們讓其他人通過(guò)開放的API抓取數(shù)據(jù),結(jié)果可能變得很糟。但是對(duì)于大家都有用處的數(shù)據(jù),我們會(huì)努力提供更好的研究。
作為用戶,我們還是希望不管是否開放了API接口,都能有效保護(hù)我們的隱私。