大數(shù)據(jù)時代下的隱私保護

責(zé)任編輯:editor007

作者:孫茗珅 韋韜

2017-12-11 17:05:19

摘自:中國教育網(wǎng)絡(luò)

隨著隱私成為大數(shù)據(jù)應(yīng)用領(lǐng)域的焦點,百度安全實驗室的安全專家孫茗珅和韋韜專門撰寫了一個隱私保護技術(shù)方面的綜述。

  編者按

  隨著隱私成為大數(shù)據(jù)應(yīng)用領(lǐng)域的焦點,百度安全實驗室的安全專家孫茗珅和韋韜專門撰寫了一個隱私保護技術(shù)方面的綜述。本文介紹了學(xué)術(shù)界和工業(yè)界對于用戶隱私保護的努力成果,其中主要講到了k-anonymity(k-匿名化)、l-diversity(l-多樣化)、t-closeness和ε-differential privacy(差分隱私),并對它們的優(yōu)缺點進行了分析。

大數(shù)據(jù)時代下的隱私保護

數(shù)據(jù)和隱私

  在大數(shù)據(jù)的時代,數(shù)據(jù)成為了科學(xué)研究的基石。人們在享受著推薦算法、語音識別、圖像識別、無人車駕駛等智能的技術(shù)帶來的便利的同時,數(shù)據(jù)在背后擔(dān)任著驅(qū)動算法不斷優(yōu)化迭代的角色。在科學(xué)研究、產(chǎn)品開發(fā)、數(shù)據(jù)公開的過程中,算法需要收集、使用用戶數(shù)據(jù),在這過程中數(shù)據(jù)就不可避免地暴露在外。歷史上就有很多公開的數(shù)據(jù)暴露了用戶隱私的案例。

  美國在線(AOL)是一家美國互聯(lián)網(wǎng)服務(wù)公司,也是美國最大的互聯(lián)網(wǎng)提供商之一。2006年8月,為了學(xué)術(shù)研究,AOL公開了匿名的搜索記錄,其中包括65萬個用戶的數(shù)據(jù),總共20M條查詢記錄。在這些數(shù)據(jù)中,用戶的姓名被替換成了一個個匿名的ID,但是《紐約時報》通過這些搜索記錄,找到了ID匿名為4417749的用戶在真實世界中對應(yīng)的人。ID4417749的搜索記錄里有關(guān)于“60歲的老年人”的問題、

  “Lilburn地方的風(fēng)景”、還有“Arnold”的搜索字樣。通過上面幾條數(shù)據(jù),紐約時報發(fā)現(xiàn)Lilburn只有14個人姓Arnold,最后經(jīng)過直接聯(lián)系這14個人確認ID4417749是一位62歲名字叫Thelma Arnold的老奶奶。最后AOL緊急撤下數(shù)據(jù),發(fā)表聲明致歉,但是已經(jīng)太晚了。因為隱私泄露事件,AOL遭到了起訴,最終賠償受影響用戶總額高達五百萬美元。

  同樣是2006年,美國最大的影視公司之一——Netflix,舉辦了一個預(yù)測算法的比賽(Netflix Prize),比賽要求在公開數(shù)據(jù)上推測用戶的電影評分。Netflix把數(shù)據(jù)中唯一識別用戶的信息抹去,認為這樣就能保證用戶的隱私。但是在2007年來自The University of Texasat Austin的兩位研究人員表示通過關(guān)聯(lián)Netflix公開的數(shù)據(jù)和IMDb(互聯(lián)網(wǎng)電影數(shù)據(jù)庫)網(wǎng)站上公開的記錄就能夠識別出匿名后用戶的身份。三年后,在2010年,Netflix最后因為隱私原因宣布停止這項比賽,并因此受到高額罰款,賠償金額總計九百萬美元。近幾年各大公司均持續(xù)關(guān)注用戶的隱私安全。例如蘋果在2016年6月份的WWDC大會上就提出了一項名為DifferentialPrivacy的差分隱私技術(shù)。蘋果聲稱他能通過數(shù)據(jù)計算出用戶群體的行為模式,但是卻無法獲得每個用戶個體的數(shù)據(jù)。那么差分隱私技術(shù)又是怎么做的呢?在大數(shù)據(jù)時代,如何才能保證我們的隱私呢?

隱私保護的方法

  從信息時代開始,關(guān)于隱私保護的研究就開始了。隨著數(shù)據(jù)不斷地增長,人們對隱私越來越重視。我們在討論隱私保護的時候包括兩種情況。

  第一種是公司為了學(xué)術(shù)研究和數(shù)據(jù)交流開放用戶數(shù)據(jù),學(xué)術(shù)機構(gòu)或者個人可以向數(shù)據(jù)庫發(fā)起查詢請求,公司返回對應(yīng)的數(shù)據(jù)時需要保證用戶的隱私。

  第二種情況是公司作為服務(wù)提供商,為了提高服務(wù)質(zhì)量,主動收集用戶的數(shù)據(jù),這些在客戶端上收集的數(shù)據(jù)也需要保證隱私性。學(xué)術(shù)界提出了多種保護隱私的方法和測量隱私是否泄露的工具,例如k-anonymity(k-匿名化)、l-diversity(l-多樣化)、t-closeness、ε-differential privacy(差分隱私)、同態(tài)加密(homomorphic encryption)、零知識證明(zero-knowledge proof)等等。今天主要介紹k-anonymity(k-匿名化),l-diversity(l-多樣化),t-closeness和ε-differential privacy(差分隱私)。這些方法先從直觀的角度去衡量一個公開數(shù)據(jù)的隱私性,再到使用密碼學(xué)、統(tǒng)計學(xué)等工具保證數(shù)據(jù)的隱私性。

  下面我們一一解讀這四種隱私保護的方法:

  k-anonymity(k-匿名化)

  k-anonymity是在1998年由Latanya Sweeney和Pierangela Samarati提出的一種數(shù)據(jù)匿名化方法。

  先看一下表1,我們把表格中的公開屬性分為以下三類:

  Key attributes:一般是個體的唯一標(biāo)示,比如說姓名、地址、電話等等,這些內(nèi)容需要在公開數(shù)據(jù)的時候刪掉。

  Quasi-identifier:類似郵編、年齡、生日、性別等不是唯一的,但是能幫助研究人員關(guān)聯(lián)相關(guān)數(shù)據(jù)的標(biāo)示。

  Sensitive attributes:敏感數(shù)據(jù),比如說購買偏好、薪水等等,這些數(shù)據(jù)是研究人員最關(guān)心的,所以一般都直接公開。

  簡單來說,k-anonymity的目的是保證公開的數(shù)據(jù)中包含的個人信息至少k-1條不能通過其他個人信息確定出來。也就是公開數(shù)據(jù)中的任意quasi-identifier信息,相同的組合都需要出現(xiàn)至少k次。

  舉個例子,假設(shè)一個公開的數(shù)據(jù)進行了2-anonymity保護。如果攻擊者想確認一個人(小明)的敏感信息(購買偏好),通過查詢他的年齡、郵編和性別,攻擊者會發(fā)現(xiàn)數(shù)據(jù)里至少有兩個人是有相同的年齡、郵編和性別。這樣攻擊者就沒辦法區(qū)分這兩條數(shù)據(jù)到底哪個是小明了,從而也就保證了小明的隱私不會被泄露。

  表2就是2-anonymization過的信息:

中國教育網(wǎng)絡(luò)雜志微信二維碼

  k-anonymity的方法主要有兩種,一種是刪除對應(yīng)的數(shù)據(jù)列,用星號(*)代替。另外一種方法是用概括的方法使之無法區(qū)分,比如把年齡這個數(shù)字概括成一個年齡段。對于郵編這樣的數(shù)據(jù),如果刪除所有郵編,研究人員會失去很多有意義的信息,所以可以選擇刪除最后一位數(shù)字。

  從這個表中,即使我們知道小明是男性、24歲、郵編是100083,卻仍然無法知道小明的購買偏好。而研究人員依然可以根據(jù)這些數(shù)據(jù)統(tǒng)計出一些有意義的結(jié)果,這樣既兼顧了個人的隱私,又能為研究提供有效的數(shù)據(jù)。

  k-anonymity能保證以下三點:

  1.攻擊者無法知道某個人是否在公開的數(shù)據(jù)中。

  2.給定一個人,攻擊者無法確認他是否有某項敏感屬性。

  3.攻擊者無法確認某條數(shù)據(jù)對應(yīng)的是哪個人(這條假設(shè)攻擊者除了quasi-identifier信息之外對其他數(shù)據(jù)一無所知,舉個例子,如果所有用戶的偏好都是購買電子產(chǎn)品,那么k-anonymity也無法保證隱私?jīng)]有泄露)。

  未排序匹配攻擊(unsorted matching attack):當(dāng)公開的數(shù)據(jù)記錄和原始記錄的順序一樣的時候,攻擊者可以猜出匿名化的記錄是屬于誰。例如如果攻擊者知道在數(shù)據(jù)中小明是排在小白前面,那么他就可以確認,小明的購買偏好是電子產(chǎn)品,小白是家用電器。解決方法也很簡單,在公開數(shù)據(jù)之前先打亂原始數(shù)據(jù)的順序就可以避免這類的攻擊。

  補充數(shù)據(jù)攻擊(complementary release attack):假如公開的數(shù)據(jù)有多種類型,如果它們的k-anonymity方法不同,那么攻擊者可以通過關(guān)聯(lián)多種數(shù)據(jù)推測用戶信息。

  除此之外,如果敏感屬性在同一類quasi-identifiers中缺乏多樣性,或者攻擊者有其它的背景知識,k-anonymity也無法避免隱私泄露。

  我們知道李雷的信息,圖1中有兩條對應(yīng)的數(shù)據(jù),但是他們的購買偏好都是電子產(chǎn)品。因為這個敏感屬性缺乏多樣性,所以盡管是2-anonimity匿名化的數(shù)據(jù),我們依然能夠獲得李雷的敏感信息。

  如果我們知道小紫的信息,并且知道她不喜歡購買護膚品,那么從圖2中,我們?nèi)钥梢源_認小紫的購買偏好是廚具。

中國教育網(wǎng)絡(luò)雜志微信二維碼

  l-diversity(l-多樣化)

  通過上面的例子,我們引出了多樣化的概念。簡單來說,在公開的數(shù)據(jù)中,對于那些quasi-identifier相同的數(shù)據(jù)中,敏感屬性必須具有多樣性,這樣才能保證用戶的隱私不能通過背景知識等方法推測出來。

  l-diversity保證了相同類型數(shù)據(jù)中至少有l(wèi)種內(nèi)容不同的敏感屬性。

  例如在圖3的例子中,有10條相同的類型的數(shù)據(jù),其中8條的購買偏好是電子產(chǎn)品,其他兩條分別是圖書和家用電器。那么在這個例子中,公開的數(shù)據(jù)就滿足3-diversity的屬性。

  除了以上介紹的簡單l-diversity的定義,還有其他版本的l-diversity,引入了其他統(tǒng)計方法。比如說:

  基于概率的l-diversity(probabilistic l-diversity):在一個類型中出現(xiàn)頻率最高的值的概率不大于1/l。

  基于墑的l-diversity(entropy l-diversity):在一個類型中敏感數(shù)據(jù)分布的墑至少是log(l)。

  遞歸(c,l)-diversity(recursive(c,l)-diversity):簡單來說就是保證最經(jīng)常出現(xiàn)的值的出現(xiàn)頻率不要太高。

  l-diversity也有其局限性:

  敏感屬性的性質(zhì)決定即使保證了一定概率的diversity也很容易泄露隱私。例如,醫(yī)院公開的艾滋病數(shù)據(jù)中,敏感屬性是“艾滋病陽性”(出現(xiàn)概率是1%)和“艾滋病陰性”(出現(xiàn)概率是99%),這兩種值的敏感性不同,造成的結(jié)果也不同。

  有些情況下l-diversity是沒有意義的:比如說艾滋病數(shù)據(jù)的例子中僅含有兩種不同的值,保證2-diversity也是沒有意義的。

  l-diversity很難達成:例如,我們想在10000條數(shù)據(jù)中保證2-diversity,那么可能最多需要10000×0.01=100個相同的類型。這時可能通過之前介紹的k-anonymity的方法很難達到。

  偏斜性攻擊(Skewness Attack):假如我們要保證在同一類型的數(shù)據(jù)中出現(xiàn)“艾滋病陽性”和出現(xiàn)“艾滋病陰性”的概率是相同的,我們雖然保證了diversity,但是我們泄露隱私的可能性會變大。因為l-diversity并沒有考慮敏感屬性的總體的分布。

  l-diversity沒有考慮敏感屬性的語義,比

  如說下面圖4的例子,我們通過李雷的信息從公開數(shù)據(jù)中關(guān)聯(lián)到了兩條信息,通過這兩條信息我們能得出兩個結(jié)論。第一,李雷的工資相對較低;第二,李雷喜歡買電子電器相關(guān)的產(chǎn)品。

 

  t-closeness

 

  上面最后一個問題就引出了t-closeness的概念,t-closeness是為了保證在相同的quasi-identifier類型組中,敏感信息的分布情況與整個數(shù)據(jù)的敏感信息分布情況接近(close),不超過閾值t。

  如果剛才的那個數(shù)據(jù)保證了t-closeness屬性,那么通過李雷的信息查詢出來的結(jié)果中,工資的分布就和整體的分布類似,進而很難推斷出李雷工資的高低。

  最后,如果保證了k-anonymity,l-diversity和t-closeness,隱私就不會泄露了么?答案并不是這樣,我們看圖5的例子,在這個例子中,我們保證了2-anonymity,2-diversity,t-closeness(分布近似),工資和購買偏好是敏感屬性。攻擊者通過李雷的個人信息找到了四條數(shù)據(jù),同時知道李雷有很多書,這樣就能很容易在四條數(shù)據(jù)中找到李雷的那一條,從而造成隱私泄露。可能有些讀者會有疑問,通過背景知識攻擊k-anonymity的前提是不是假設(shè)了解quasi-identifier?并不是這樣,針對敏感屬性的背景攻擊對k-anonymity也適用,所以無論經(jīng)過哪些屬性保證,隱私泄露還是很難避免。

中國教育網(wǎng)絡(luò)雜志微信二維碼

  差分隱私(differentialprivacy)

  除了之前我們介紹的針對k-anonymity,l-diversity,t-closeness三種隱私保護方法的攻擊之外,還有一種叫做差分攻擊(differential attack)。舉個例子,購物公司發(fā)布了購物偏好的數(shù)據(jù),說我們有100個人的購物偏好數(shù)據(jù),其中有10個人偏愛購買汽車用品,其他90個偏愛購買電子產(chǎn)品。如果攻擊者知道其中99個人是偏愛汽車用品還是電子產(chǎn)品,就可以知道第100個人的購物偏好。這樣通過比較公開數(shù)據(jù)和既有的知識推測出個人隱私,就叫做差分攻擊。

  在2009年,微軟研究院的CynthiaDwork提出差分隱私的概念,差分隱私就是為了防止差分攻擊,也就是說盡管攻擊者知道發(fā)布的100個人的個人以信息和其中99個人的信息,他也沒辦法通過比對這兩個信息獲得第100個人的信息。

  簡單來說,差分隱私就是用一種方法使得查詢100個信息和查詢其中99個的信息得到的結(jié)果是相對一致的,那么攻擊者就無法通過比較(差分)數(shù)據(jù)的不同找出第100個人的信息。這種方法就是加入隨機性,如果查詢100個記錄和99個記錄,輸出同樣的值的概率是一樣的,攻擊者就無法進行差分攻擊。進一步說,對于差別只有一條記錄的兩個數(shù)據(jù)集D和D‘(neighboring datasets),查詢他們獲得結(jié)果相同的概率非常接近。注意,這里并不能保證概率相同,如果一樣的話,數(shù)據(jù)就需要完全的隨機化,那樣公開數(shù)據(jù)也就沒有意義。所以,我們需要盡可能接近,保證在隱私和可用性之間找到一個平衡。

  ε-差分隱私(ε-differential privacy,ε-DP)可以用下面圖6的定義來表示:

  其中M是在D上做任意查詢操作,對查詢后的結(jié)果加入一定的隨機性,也就是給數(shù)據(jù)加噪音,兩個datasets加上同一隨機噪音之后查詢結(jié)果為C的概率比小于一個特定的數(shù)。這樣就能保證用戶隱私泄露的概率有一個數(shù)學(xué)的上界,相比傳統(tǒng)的k-anonymity,差分隱私使隱私保護的模型更加清晰。

  我們用圖7的例子解釋差分隱私的定義:圖7中D1和D2是兩個neighboring datasets,他們只有一條記錄不一致,在攻擊者查詢“20-30歲之間有多少人偏好購買電子產(chǎn)品”的時候,對于這兩個數(shù)據(jù)庫得到的查詢結(jié)果是100的概率分別是99%和98%,他們的比值小于某個數(shù)。如果對于任意的查詢,都能滿足這樣的條件,我們就可以說這種隨機方法是滿足ε-差分隱私的。因為D1和D2是可以互換的,所以更加嚴格地講,他們的比值也要大于e-ε。

中國教育網(wǎng)絡(luò)雜志微信二維碼

  無論查詢是什么,兩個相鄰的數(shù)據(jù)庫返回的結(jié)果總是近似的。

  要達到數(shù)據(jù)的差分隱私有四種方法:

  1.輸出結(jié)果變換

  2.輸入查詢變換

  3.中間值變換

  4.抽樣和聚合數(shù)據(jù)

  本文接下來主要介紹輸出結(jié)果變換的方法,這種方法主要針對查詢結(jié)果是數(shù)值或者數(shù)值向量的情況,通過加入噪聲使輸出結(jié)果達到ε-DP。

  輸出結(jié)果變換:加入噪聲

  在差分隱私中,防止隱私泄露的重要因素是在查詢結(jié)果中加噪音,對于數(shù)值的查詢結(jié)果,一種常見的方法就是對結(jié)果進行數(shù)值變換。要解釋如何加入噪音,我們先看一下圖8的這個例子:假如某公司公開了數(shù)據(jù),并且對外提供了查詢數(shù)據(jù)的接口f(x),針對不同的查詢x,服務(wù)器都會輸出一個查詢結(jié)果f(x)+噪聲,加入噪聲就是為了保證ε-差分隱私。

 

  那么如何選擇噪聲呢?

 

  差分隱私方法中,作者巧妙地利用了拉普拉斯分布的特性,找到了合適的噪聲方法。針對數(shù)值或向量的查詢輸出,M(x)=f(x)+噪聲。我們能得出以下結(jié)論:

中國教育網(wǎng)絡(luò)雜志微信二維碼

  我們有了這個結(jié)論,想要對某個查詢接口f(x)保證ε-DP的話,只需要在查詢結(jié)果上加入Lap(GS/e)的噪聲就可以了。

  拉普拉斯分布和其概率密度函數(shù)如圖9:

 ?。?epsilon;,δ)-differential privacy,(ε,δ)-DPε-DP是一種“嚴格”的隱私保護保證,當(dāng)在數(shù)據(jù)庫中添加和刪除一條數(shù)據(jù)時候,保證所有查詢的輸出都類似。但是(ε,δ)-DP在ε-DP的保證中允許了一定概率的錯誤發(fā)生,比如說,用戶在(ε,δ)-DP的保護下會有δ概率的隱私泄露。

  基于這些的概念,差分隱私在機器學(xué)習(xí)算法中也能夠使用,常見的算法,比如說PCA、logisticregression、SVM都有對應(yīng)的差分隱私化算法。

  差分隱私在數(shù)據(jù)的實用性和隱私性之間達到了平衡,使用者可以通過設(shè)定自己的“隱私預(yù)算”(privacy budget)來調(diào)整數(shù)據(jù)的實用性和隱私性。但是差分隱私也不是萬能的,其中加入噪聲的很多算法需要在大量的數(shù)據(jù)集上才實用。除此之外,什么才是“隱私預(yù)算”的合理設(shè)定也是一個問題。這些都是差分隱私面臨的問題和挑戰(zhàn)。并且由于差分隱私對于“背景知識”的要求過于強,所以需要在結(jié)果中加入大量隨機化,導(dǎo)致數(shù)據(jù)的可用性(utility)急劇下降。但是差分隱私作為一個非常優(yōu)雅的數(shù)學(xué)工具,是隱私保護的研究在未來的一個發(fā)展方向。差分隱私用嚴格的數(shù)學(xué)證明告訴人們一個匿名化的公開數(shù)據(jù)究竟能保護用戶多少的隱私。

  k-匿名化與ε-差分隱私的關(guān)系

  我們前面分別單獨介紹了k-匿名化和ε-差分隱私,k-匿名化相對比較容易理解和實踐,差分隱私更像是從理論上證明了隱私保護的邊界。雖然方法的分析角度完全不同,但是它們之間卻有著緊密的聯(lián)系。普渡大學(xué)的NinghuiLi教授在Provably Private Data Anonymization:Or,k-Anonymity Meets Differential Privacy文章中詳細分析了k-匿名化和ε-差分隱私之間的關(guān)系。文章證明了在使用k-匿名化“得當(dāng)”的情況下,可以滿足一定條件的(ε,δ)-differentialprivacy。同時也提出了一種k-anonymity的變形:β-Sampling+Data-independent_Generalization+k-Suppression(k,β)-SDGS,通過變形后的k-anonymity就可以使之滿足差分隱私。通過使用差分隱私這種工具,我們就能精確地衡量前人提出的k-anonymity,這在理論研究上具有重要意義。

  總結(jié)

  本文介紹了學(xué)術(shù)界和工業(yè)界對于用戶隱私保護的努力成果。首先介紹了k-anonymity,即通過變換隱私數(shù)據(jù),保證相同特性的用戶在數(shù)據(jù)庫出現(xiàn)的次數(shù)至少是k次。然后,為了防止攻擊者通過隱私數(shù)據(jù)的背景知識推測用戶身份,提出使用l-diversity,保證相同特征的用戶中,隱私數(shù)據(jù)相同的個數(shù)大于l。除此之外,我們也討論了t-closeness。最后詳細介紹了差分隱私的概念,以及實際應(yīng)用中應(yīng)如何使用差分隱私。

  從最開始的k-anonymity,l-diversity,t-closeness到現(xiàn)在的ε-差分隱私,都是為了既保證用戶的個人隱私,也能對實際應(yīng)用和研究提供有價值的數(shù)據(jù)。在大數(shù)據(jù)的時代中,希望各公司在利用數(shù)據(jù)提供更好的服務(wù)的同時,能保護好用戶的個人隱私。這是法律的要求,也是安全行業(yè)的追求。我們相信隱私保護技術(shù)會越來越受到重視,并從學(xué)術(shù)理論迅速投入工業(yè)界實戰(zhàn)應(yīng)用(責(zé)編:楊潔)

  (作者單位為百度安全實驗室)

  參考文章

  1.https://www.cis.upenn.edu/~aaroth/Papers/privacybook.

  pdf

  2..https://www.cs.cmu.edu/~yuxiangw/docs/Differential%20Privacy.pdf

  3.https://blog.cryptographyengineering.com/2016/06/15/what-is-differential-privacy/

  4.https://www.chromium.org/developers/design-documents/rappor

  5.http://static.googleusercontent.com/media/research.google.com/en/us/pubs/archive/42852.pdf

  6.ProvablyPrivateDataAnonymization:Or,k-AnonymityMeetsDifferentialPrivacy

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號