一位美國(guó)聯(lián)邦法官裁定,Microsoft旗下的LinkedIn公司不能阻止第三方Web爬蟲(chóng)爬取其公開(kāi)資料數(shù)據(jù)。這一裁定是根據(jù)初創(chuàng)企業(yè)hiQ Labs針對(duì)LinkedIn的訴訟而于8月14日做出的,這次訴訟是在LinkedIn向該初創(chuàng)企業(yè)發(fā)出一份要求其停止并中斷爬取數(shù)據(jù)的信函后發(fā)起的。
hiQ Labs爬取LinkedIn用戶(hù)資料中的公開(kāi)可見(jiàn)信息,為企業(yè)了解是否雇員有意向離職提供幫助。這類(lèi)爬取行為違反了LinkedIn的反爬取軟件禁令,因此在2017年5月23日,LinkedIn向HiQ Labs發(fā)出了信函,要求該公司停止這類(lèi)爬取行為,并威脅要依據(jù)《電腦欺詐和濫用法》(CFAA,Computer Fraud and Abuse Act)而采取法律行為。就此,hiQ Labs發(fā)起了對(duì)LinkedIn的訴訟,指責(zé)LinkedIn具有反競(jìng)爭(zhēng)行為,侵犯了企業(yè)訪(fǎng)問(wèn)公開(kāi)可用信息的言論自由權(quán)利。該初創(chuàng)企業(yè)的代理律師指出,hiQ Labs應(yīng)該并未訪(fǎng)問(wèn)LinkedIn的主要數(shù)據(jù)源。法官Edward Chen在裁定中,特意呼吁LinkedIn對(duì)CFAA做“廣泛的詮釋”:“如果采納LinkedIn的行為,那么將對(duì)互聯(lián)網(wǎng)的開(kāi)放訪(fǎng)問(wèn)產(chǎn)生深遠(yuǎn)的影響,這是議會(huì)在三十年前頒布CFAA時(shí)所不愿意看到的結(jié)果”。據(jù)報(bào)道,LinkedIn將對(duì)這一裁決提出上訴。
對(duì)于數(shù)據(jù)所有者及隱私,以及社會(huì)媒體公司對(duì)用戶(hù)公開(kāi)發(fā)表信息的控制程度,該聯(lián)邦政令的影響重大。HiQ Labs認(rèn)為,LinkedIn對(duì)公共資料獲取的限制違反了建立在最高法院最近的一項(xiàng)裁決上的“第一修正案”(the First Amendment),即將社交媒體網(wǎng)站等同于一種“現(xiàn)代公眾廣場(chǎng)”。Hacker News的一個(gè)熱議話(huà)題顯示,社交媒體用戶(hù)是否將他們公開(kāi)發(fā)布數(shù)據(jù)等同視作將信息張貼在公開(kāi)廣場(chǎng)上,這依然有待觀(guān)察。
在本次法庭案例中,涉及了數(shù)據(jù)隱私問(wèn)題的另一個(gè)意外維度,那就是LinkedIn宣稱(chēng)它想要保護(hù)的并非僅是數(shù)據(jù)本身,而是包括對(duì)被更改數(shù)據(jù)的訪(fǎng)問(wèn)。LinkedIn允許用戶(hù)公開(kāi)發(fā)表個(gè)人資料,默認(rèn)情況下并不會(huì)共享對(duì)簡(jiǎn)歷的某些更改。但是hiQ Labs通過(guò)大規(guī)模抓取可以檢測(cè)到資料中的更改情況,并使用這些發(fā)現(xiàn)情況去告警企業(yè)雇主存在潛在的雇員流失問(wèn)題。雖然有部分用戶(hù)明白公開(kāi)發(fā)表資料的深層影響,但是大多數(shù)用戶(hù)不可能時(shí)刻惦記從數(shù)據(jù)中可以產(chǎn)生何種洞察,以及這些數(shù)據(jù)會(huì)被如何使用,而有一些他們所不了解的企業(yè)卻在持續(xù)地監(jiān)測(cè)個(gè)人資料的更新情況。
Programmable Web網(wǎng)站的主編David Berlind最近評(píng)論了該裁定對(duì)API經(jīng)濟(jì)的影響。他指出,LinkedIn數(shù)據(jù)的價(jià)值并非在于數(shù)據(jù)本身,而是其后的數(shù)據(jù)模型。該裁定將允許機(jī)器人毫無(wú)顧忌地利用這些數(shù)據(jù)企業(yè),這降低了LinkedIn等產(chǎn)品的整體價(jià)值。他進(jìn)一步提出,該裁定強(qiáng)制企業(yè)允許爬蟲(chóng)規(guī)避企業(yè)發(fā)布的API,妨礙了企業(yè)去“擴(kuò)展并理解數(shù)據(jù)和數(shù)據(jù)所驅(qū)動(dòng)價(jià)值之間的關(guān)聯(lián)性”。
雖然LinkedIn確實(shí)提供了一些API,但是看上去很多開(kāi)發(fā)人員并不認(rèn)為這些API適合自身的需要,因?yàn)榫幊探鐦I(yè)已形成了廣泛爬取LinkedIn數(shù)據(jù)的事實(shí)。已有提供在Github上的開(kāi)源爬取庫(kù),開(kāi)發(fā)人員可在Stack Exchange和Quora上就相關(guān)話(huà)題開(kāi)展交流,商業(yè)數(shù)據(jù)爬取公司也提供了采集LinkedIn數(shù)據(jù)的教程。在2016年,該Microsoft旗下的公司發(fā)起了一次針對(duì)一百個(gè)匿名爬取數(shù)據(jù)機(jī)器人用戶(hù)的訴訟,所涉及的機(jī)器人意圖通過(guò)偽造的用戶(hù)賬號(hào)訪(fǎng)問(wèn)非公開(kāi)的簡(jiǎn)歷數(shù)據(jù)。值得注意的是,LinkedIn非常支持白名單服務(wù)提供商(如搜索引擎)的爬取行為。
查看英文原文: LinkedIn Ordered to Allow Scraping of Public Profile Data