數(shù)據(jù)安全事件頻發(fā),數(shù)據(jù)脫敏技術發(fā)展趨勢如何?

責任編輯:cres

2020-06-04 14:25:12

摘自:信息通信技術與政策

在當前的大數(shù)據(jù)時代,各類數(shù)據(jù)分析應用技術已經廣泛應用在國家治理、企業(yè)運行、個人日常生活等各個方面,數(shù)據(jù)成為時下最熱門的基礎資源,因此數(shù)據(jù)安全的受關注程度也在不斷攀升,成為頗受重視的話題。

在當前的大數(shù)據(jù)時代,各類數(shù)據(jù)分析應用技術已經廣泛應用在國家治理、企業(yè)運行、個人日常生活等各個方面,數(shù)據(jù)成為時下最熱門的基礎資源,因此數(shù)據(jù)安全的受關注程度也在不斷攀升,成為頗受重視的話題。
 
1 引言
 
在當前的大數(shù)據(jù)時代,各類數(shù)據(jù)分析應用技術已經廣泛應用在國家治理、企業(yè)運行、個人日常生活等各個方面,數(shù)據(jù)成為時下最熱門的基礎資源,因此數(shù)據(jù)安全的受關注程度也在不斷攀升,成為頗受重視的話題。
 
近年來,在國際上數(shù)據(jù)安全事件頻發(fā),尤其是數(shù)據(jù)泄露事件,根據(jù)Risk Based Security于2019年下半年發(fā)布的數(shù)據(jù),整個2019年上半年發(fā)生數(shù)據(jù)泄露事件3800余起,相對于2018年同期數(shù)據(jù)增長了54%。數(shù)據(jù)泄露事件通常還會帶來顯式或隱式的經濟損失,安全研究中心Ponemon Institute和IBM Security聯(lián)合發(fā)布的《2019年數(shù)據(jù)泄露成本報告》中指出,超過100萬條記錄的泄露預計會給企業(yè)帶來4200萬美元的損失,當泄露記錄超過5000萬條時,預計帶來的損失將達到3.88億美元[1]。
 
安全事件的不斷爆發(fā),以及事件背后相應可能帶來的潛在重大危害和巨額損失,不斷驅使著國家、行業(yè)、企業(yè)等各層面更加重視數(shù)據(jù)安全,并開始從法規(guī)、標準、制度等方面切入展開相應舉措。歐盟在2018年出臺《通用數(shù)據(jù)保護條例》(GDPR),規(guī)定了企業(yè)如何收集、使用和處理歐盟公民的個人數(shù)據(jù)。2019年5月28日,國家互聯(lián)網信息辦公室發(fā)布的《數(shù)據(jù)安全管理辦法(征求意見稿)》中,明確要求對于個人信息的保存和提供要經過匿名化處理,以切實降低在數(shù)據(jù)應用中個人信息可能存在的泄露風險[2]。
 
2 數(shù)據(jù)脫敏技術
 
數(shù)據(jù)脫敏技術是一種可以通過數(shù)據(jù)變形方式對于敏感數(shù)據(jù)進行處理,從而降低數(shù)據(jù)敏感程度的一種數(shù)據(jù)處理技術。適當?shù)厥褂脭?shù)據(jù)脫敏技術,可以有效地減少敏感數(shù)據(jù)在采集、傳輸、使用等環(huán)節(jié)中的暴露,降低敏感數(shù)據(jù)泄露的風險,盡可能降低數(shù)據(jù)泄露造成的危害。根據(jù)不同的數(shù)據(jù)脫敏規(guī)則和算法,可以對特定敏感數(shù)據(jù)使用若干種數(shù)據(jù)變形方式進行組合處理,在不同程度上降低數(shù)據(jù)的敏感程度,在較為嚴格的脫敏規(guī)則和算法下可實現(xiàn)匿名化處理。
 
數(shù)據(jù)脫敏技術本質上是對于數(shù)據(jù)的變形處理,因此數(shù)據(jù)脫敏技術的另一大特點是能夠在一定程度上保持數(shù)據(jù)原本的一些特性,使脫敏后的數(shù)據(jù)依舊存在可用性。針對整個數(shù)據(jù)集使用統(tǒng)一的脫敏處理算法,可以保證在降低數(shù)據(jù)敏感程度的同時,數(shù)據(jù)集整體的統(tǒng)計特性、數(shù)據(jù)唯一性不發(fā)生改變,從而能夠繼續(xù)滿足關聯(lián)分析、機器學習、即時查詢等應用場景的使用需求。
 
2.1 數(shù)據(jù)脫敏算法與匿名化方法
 
在實際應用數(shù)據(jù)脫敏技術時,常常會涉及到脫敏算法、脫敏規(guī)則、脫敏策略3 個不同的概念。
 
數(shù)據(jù)脫敏技術的核心是通過對敏感數(shù)據(jù)進行變形處理以降低其敏感程度。其中,在脫敏處理過程中使用的特定數(shù)據(jù)變形方式為脫敏算法。在原始脫敏算法的基礎上,通過將一種或多種脫敏算法的組合應用在一種特定的敏感數(shù)據(jù)上便形成了脫敏規(guī)則。在具體的業(yè)務場景中,根據(jù)不同業(yè)務場景選擇特定一系列脫敏規(guī)則可稱為脫敏策略。相關示例見表1。
 
表1 脫敏算法、脫敏規(guī)則、脫敏策略概念示例
 
對于數(shù)據(jù)脫敏技術以及實現(xiàn)數(shù)據(jù)脫敏的應用及工具,數(shù)據(jù)脫敏算法均是其中的核心能力,常見的脫敏算法包括加密、掩碼、替換、模糊等。
 
在上述提到的基礎脫敏算法之外,為了實現(xiàn)更高程度的敏感信息保護能力,尤其是達到特定水平的敏感程度降低,還存在更多復雜的針對于數(shù)據(jù)集整體的脫敏策略。例如,在個人信息保護場景中的匿名化要求下,需要使用k匿名化、l多樣化、t貼近性等匿名化方法。
 
k匿名化方法要求數(shù)據(jù)集中的每一條記錄至少需要與其他k-1條記錄無法進行直接區(qū)分,即數(shù)據(jù)集中每種敏感屬性組合至少需要同時出現(xiàn)在k條記錄中,無法被區(qū)分的k條記錄形成一個等價類[3]。l多樣化是基于k匿名化方法在敏感屬性方面的一種擴展,該方法要求數(shù)據(jù)集在匿名化處理時每個等價類中所有記錄的敏感屬性至少包含l個互不相同的敏感屬性值[4]。t貼近性方法要求所有等價類中敏感屬性值的分布盡量接近該屬性在整個數(shù)據(jù)集中的全局分布,從而可以抵抗偏斜攻擊[5]。
 
2.2 數(shù)據(jù)脫敏技術分類
 
當前數(shù)據(jù)脫敏技術主要可以分為靜態(tài)數(shù)據(jù)脫敏和動態(tài)數(shù)據(jù)脫敏兩類,兩者面向的使用場景不同,實現(xiàn)時采用的技術路線和實現(xiàn)機制也均有所不同。
 
2.2.1
 
靜態(tài)數(shù)據(jù)脫敏靜態(tài)數(shù)據(jù)脫敏的主要目標是實現(xiàn)對完整數(shù)據(jù)集的大批量數(shù)據(jù)進行一次性整體脫敏處理,一般會按照制定好的數(shù)據(jù)脫敏規(guī)則,使用類似ETL技術的處理方式,對于數(shù)據(jù)集進行統(tǒng)一的變形轉換處理。在根據(jù)脫敏規(guī)則降低數(shù)據(jù)敏感程度的同時,靜態(tài)脫敏能夠盡可能減少對于數(shù)據(jù)集原本的內在數(shù)據(jù)關聯(lián)性、統(tǒng)計特征等可挖掘信息的破壞,保留更多有價值的信息。靜態(tài)脫敏通常在需要使用生產環(huán)境中的敏感數(shù)據(jù)進行開發(fā)、測試或者外發(fā)的場景中使用。
 
2.2.2
 
動態(tài)數(shù)據(jù)脫敏動態(tài)數(shù)據(jù)脫敏的主要目標是對外部申請訪問的敏感數(shù)據(jù)進行實時脫敏處理,并即時返回處理后的結果,一般通過類似網絡代理的中間件技術,按照脫敏規(guī)則對外部的訪問申請和返回結果進行即時變形轉換處理。在根據(jù)脫敏規(guī)則降低數(shù)據(jù)敏感程度的同時,動態(tài)脫敏能夠最大程度上降低數(shù)據(jù)需求方獲取脫敏數(shù)據(jù)的延遲,通過適當?shù)拿撁粢?guī)則設計和實現(xiàn),即使是實時產生的數(shù)據(jù)也能夠通過請求訪問返回脫敏后的數(shù)據(jù)。動態(tài)數(shù)據(jù)脫敏通常會在敏感數(shù)據(jù)需要對外部提供訪問查詢服務的場景中使用。
 
3 數(shù)據(jù)脫敏技術應用現(xiàn)狀
 
數(shù)據(jù)脫敏技術的應用在近幾年不斷呈現(xiàn)上升的趨勢,根據(jù)Gartner發(fā)布的《數(shù)據(jù)脫敏市場指南》,2017年使用數(shù)據(jù)脫敏或其他類似去識別技術的企業(yè)占比為15%,這一數(shù)據(jù)在2018年增加到了20%,預計在2022年將達到50%[6]。
 
3.1 數(shù)據(jù)脫敏技術行業(yè)應用現(xiàn)狀
 
在實際應用中,數(shù)據(jù)脫敏技術通常應用在涉及到個人隱私數(shù)據(jù)存儲和應用的部分行業(yè)領域,因此廣泛應用于政務、金融、電信、互聯(lián)網等行業(yè)領域。數(shù)據(jù)脫敏技術的應用目的主要包括兩方面:一是以保護敏感數(shù)據(jù)安全、實現(xiàn)合法合規(guī)為主要目的;二是在達到第一目標的前提下,盡可能地保證數(shù)據(jù)可用性以及可挖掘價值。
 
在當前大數(shù)據(jù)時代,多數(shù)涉及到個人隱私數(shù)據(jù)存儲使用的領域皆不可避免地需要面對數(shù)據(jù)安全及合規(guī)問題。具體來說,在政務領域,由于政務數(shù)據(jù)平臺往往會掌握身份信息、戶籍信息等大量極為敏感的個人信息數(shù)據(jù),需要針對數(shù)據(jù)采集、傳輸、應用、歸檔等全生命周期進行數(shù)據(jù)脫敏并同步實施其他數(shù)據(jù)安全防護手段;在金融、電信等關鍵領域,由于電信客戶的手機號碼、通話記錄、網絡流量等信息以及金融客戶的個人賬戶信息、交易記錄等信息均屬于重要敏感信息,面臨嚴格的行業(yè)監(jiān)管要求,使用數(shù)據(jù)脫敏技術是實現(xiàn)合規(guī)的首選;在數(shù)據(jù)應用最為廣泛的互聯(lián)網領域,大量地使用到了可能會涉及個人隱私的用戶行為數(shù)據(jù),從避免違規(guī)導致的額外成本角度來看,使用敏感數(shù)據(jù)時進行數(shù)據(jù)脫敏處理是重要的前提步驟。
 
在涉及到大數(shù)據(jù)分析應用的領域,企業(yè)需要在保證數(shù)據(jù)安全及合規(guī)的前提下,依舊能夠保有數(shù)據(jù)的可用性及可增值性。具體來說,在金融、電信領域,征信、反欺詐、精準營銷等應用場景高度依賴對用戶行為數(shù)據(jù)等涉及隱私數(shù)據(jù)的分析挖掘。在互聯(lián)網領域,用戶行為數(shù)據(jù)更是成為企業(yè)指導業(yè)務增收的重要資源,用戶行為分析、個性化推薦、精準營銷等應用方向成為多數(shù)互聯(lián)網企業(yè)的通用服務手段,相應地分析挖掘應用不可避免。由此可見,在實現(xiàn)數(shù)據(jù)安全及合規(guī)的同時,能夠最大程度上不對數(shù)據(jù)可用性及可挖掘價值產生破壞的數(shù)據(jù)脫敏技術是當前的最佳選擇,也切實地實踐在各個行業(yè)中。
 
3.2 數(shù)據(jù)脫敏技術供應現(xiàn)狀
 
目前,已有眾多企業(yè)已經完成或者正在進行數(shù)據(jù)脫敏技術的研發(fā),總體上可以將數(shù)據(jù)脫敏技術的供應商分為信息安全服務供應商、自研自用企業(yè)以及通用數(shù)據(jù)脫敏工具開發(fā)商三大類。
 
3.2.1 信息安全服務商
 
通常以提供完整安全服務體系解決方案的形式服務客戶,為保證整個安全體系的完整性,往往會將數(shù)據(jù)脫敏技術視為一個重要技術環(huán)節(jié),通過自研或集成第三方企業(yè)產品的形式囊括在提供的服務體系或解決方案中,一般服務于金融、電信等行業(yè)需要構建整體數(shù)據(jù)安全體系的企業(yè)中。
 
3.2.2 自研自用企業(yè)
 
主要包括運營商、通信技術服務商、大型互聯(lián)網企業(yè)等自身擁有具有一定特點的敏感數(shù)據(jù)保護需求的企業(yè),由于其需求具有一定個性化,同時自身具備一定的研發(fā)能力,因此自主量身定制適合自身的數(shù)據(jù)脫敏工具更為經濟且有效率。
 
3.2.3 通用數(shù)據(jù)脫敏工具開發(fā)商
 
致力于進行通用數(shù)據(jù)脫敏工具研發(fā)的企業(yè),通常以某些類別的企業(yè)需求為出發(fā)點,研發(fā)滿足基本數(shù)據(jù)脫敏需求的工具產品,隨后根據(jù)市場情況逐漸完善產品功能,盈利形式包括直接向需求企業(yè)出售,或同安全服務商合作,納入其提供的數(shù)據(jù)安全解決方案。
 
從數(shù)據(jù)脫敏技術的供應類型來看,目前靜態(tài)脫敏技術已較為成熟,多數(shù)數(shù)據(jù)脫敏技術工具能夠提供較為完善的靜態(tài)脫敏能力,差別主要體現(xiàn)在易用性和自動化等方面。而動態(tài)脫敏方面,目前仍處于初步發(fā)展的階段。
 
在動態(tài)脫敏實現(xiàn)中,一種簡單的實現(xiàn)方案是在請求到目標數(shù)據(jù)后再進行數(shù)據(jù)脫敏處理,這種實現(xiàn)方式實際上依舊使得敏感數(shù)據(jù)從數(shù)據(jù)源傳輸至了外部;另一種相對復雜的實現(xiàn)方案是對數(shù)據(jù)請求和返回的過程進行干涉,例如查詢敏感數(shù)據(jù)所在數(shù)據(jù)庫時對查詢SQL進行解析,從中識別出敏感數(shù)據(jù)列并對查詢SQL進行改造,從而直接返回脫敏處理后的查詢結果。這種實現(xiàn)方式一方面需要對查詢過程涉及到的數(shù)據(jù)源協(xié)議進行解析,在非開源的商用數(shù)據(jù)源中進行協(xié)議解析既困難又存在一定的法律風險;另一方面,由于不同數(shù)據(jù)源之間的查詢協(xié)議存在相應差距,這種動態(tài)脫敏實現(xiàn)方式難以泛化,只能對于存在需求的數(shù)據(jù)源類型進行定制化開發(fā),當需求的數(shù)據(jù)源種類較多時耗時耗力。由于上述原因,目前的動態(tài)脫敏技術還存在一定的提升空間,實際應用也遠不及靜態(tài)脫敏技術廣泛
 
3.3 數(shù)據(jù)脫敏工具產品標準化
 
數(shù)據(jù)脫敏的需求仍在不斷增加,市面上的產品也層出不窮,形態(tài)各異的產品導致供需雙方的對接依舊存在一些問題。當下數(shù)據(jù)脫敏工具產品一般通過自主聲明的方式告知客戶產品所具備的基本能力,但缺乏對于產品能力、脫敏程度、脫敏過程安全性等的證明方式,導致企業(yè)在采購時難以分辨產品能力是否滿足自身功能需求、脫敏過程是否能夠保證脫敏過程無外泄風險、產品形式及脫敏能力是否符合自身業(yè)務場景。解決這些問題的一個方案是推進數(shù)據(jù)脫敏工具產品相關的標準化工作,根據(jù)行業(yè)需求、產品特性制定相關技術、過程等標準,通過權威第三方進行產品評估評測,遴選出符合一定水平規(guī)范和標準的數(shù)據(jù)脫敏工具,能夠有效的打消需求方的眾多疑慮,因此相關標準化工作以及基于標準的評估評測工作后續(xù)十分值得關注。
 
在對數(shù)據(jù)脫敏工具產品進行標準化的過程中,除去數(shù)據(jù)脫敏技術的核心能力之外,還應當關注工具應提供的其他相關能力,包括敏感數(shù)據(jù)識別能力、數(shù)據(jù)源管理能力、工具運維管理能力、安全審計能力以及脫敏算法、規(guī)則、策略管理能力。在核心能力方面,可以分為靜態(tài)脫敏能力和動態(tài)脫敏能力兩部分來分別制定;在靜態(tài)脫敏能力方面,重點關注脫敏任務相關的各項能力;在動態(tài)脫敏方面,重點關注對于敏感數(shù)據(jù)訪問的防繞行能力。在基礎功能的考量之外,可以額外從靜態(tài)脫敏的數(shù)據(jù)吞吐量以及動態(tài)脫敏的并發(fā)數(shù)和響應延遲來評估數(shù)據(jù)脫敏工具的性能。
 
4 數(shù)據(jù)脫敏技術發(fā)展趨勢
 
數(shù)據(jù)脫敏技術已成熟應用于部分領域,但伴隨著脫敏需求的不斷發(fā)展變化,仍存在繼續(xù)優(yōu)化演變的方向。后續(xù)數(shù)據(jù)脫敏技術的發(fā)展主要呈現(xiàn)出4個趨勢。
 
4.1 數(shù)據(jù)脫敏性能提升
 
數(shù)據(jù)脫敏需求的首個重要變化便是數(shù)據(jù)量的不斷增加。隨著信息技術的逐漸深入應用,各企業(yè)組織可保有和使用的數(shù)據(jù)量將呈爆炸性增長,相應需要進行脫敏處理的數(shù)據(jù)量也會同步提升;另一方面,各依賴于數(shù)據(jù)分析進行即時反饋調整的數(shù)據(jù)應用,對于數(shù)據(jù)的實時性需求愈加強烈,在涉及到敏感數(shù)據(jù)的實時應用中,即時或短時間內完成大量數(shù)據(jù)的脫敏處理需求將會逐漸增多。數(shù)據(jù)量及響應時間兩方面的需求變化共同指向了更高性能的數(shù)據(jù)脫敏技術這一發(fā)展方向。
 
4.2 非結構化數(shù)據(jù)脫敏
 
數(shù)據(jù)脫敏需求的第2個變化來源于大數(shù)據(jù)時代的數(shù)據(jù)多呈非結構化這一特點。相對于傳統(tǒng)通過關系型數(shù)據(jù)庫存儲的結構化數(shù)據(jù),在時下被存儲和應用的數(shù)據(jù)中,圖片、視頻、音頻、文本等非結構化數(shù)據(jù)占比不斷提升。眾多智能化數(shù)據(jù)應用中對于涉及個人隱私的非結構化數(shù)據(jù)的使用挖掘愈加常態(tài)化,原本主要針對于結構化數(shù)據(jù)的脫敏處理技術將遠遠無法滿足需求,針對于各類非結構化數(shù)據(jù)的脫敏處理技術后續(xù)將成為重點發(fā)展方向。
 
4.3 智能化數(shù)據(jù)脫敏
 
數(shù)據(jù)脫敏需求的第3個變化由數(shù)據(jù)量和數(shù)據(jù)類型的增多衍生而來。當數(shù)據(jù)的維度和種類不斷膨脹時,通過用戶指定數(shù)據(jù)脫敏策略,手動綁定待脫敏數(shù)據(jù)及脫敏規(guī)則和算法的方式將顯得效率十分低下。使用者的人工工作量需要被進一步減少,因此已有部分企業(yè)在脫敏工具產品中實現(xiàn)了敏感數(shù)據(jù)自動識別發(fā)現(xiàn)等便利化功能。后續(xù)通過應用機器學習等技術,結合各類數(shù)據(jù)分類分級規(guī)則及已實際使用的數(shù)據(jù)脫敏策略及規(guī)則,實現(xiàn)自動化實時敏感數(shù)據(jù)發(fā)現(xiàn)、自動化脫敏規(guī)則匹配等智能化數(shù)據(jù)脫敏技術,將成為受人期待的發(fā)展方向。
 
4.4 數(shù)據(jù)脫敏技術的合規(guī)應用
 
數(shù)據(jù)脫敏需求的第4個變化來源于相關政策的不斷收緊。隨著國內外對于個人隱私數(shù)據(jù)保護相關的法律法規(guī)不斷出臺,近年來頻發(fā)的數(shù)據(jù)泄露事件,以及針對違規(guī)使用用戶隱私數(shù)據(jù)企業(yè)的處罰時有發(fā)生,共同敦促著企業(yè)將數(shù)據(jù)合規(guī)視為當下的首要任務。后續(xù)針對于企業(yè)對于個人信息使用的法規(guī)將愈加復雜并具有針對性,企業(yè)合規(guī)的人力實施成本將不斷攀升。通過將數(shù)據(jù)脫敏技術同各類相關法律規(guī)范、企業(yè)相關業(yè)務相結合,實現(xiàn)企業(yè)業(yè)務流程中對于敏感數(shù)據(jù)的使用處處合規(guī),形成直接實現(xiàn)業(yè)務合規(guī)化的數(shù)據(jù)脫敏產品,將有效改善這一合規(guī)問題,后續(xù)十分值得探索。
 
5 結束語
 
本文對數(shù)據(jù)脫敏技術的應用背景、技術發(fā)展現(xiàn)狀、應用及產品現(xiàn)狀進行了梳理和闡述,在參考當前行業(yè)應用情況的前提下總結了數(shù)據(jù)脫敏技術未來的四大發(fā)展趨勢。同時,從數(shù)據(jù)脫敏工具產品的角度歸納了當前進行數(shù)據(jù)脫敏技術研發(fā)供應的3 類供應方,在進一步分析中說明了數(shù)據(jù)脫敏工具產品標準化及評估評測工作的重要性,并提出了相應標準化工作的主要方向。
 
數(shù)據(jù)脫敏技術在未來的一段時間,始終會是一種非常主流且常用的數(shù)據(jù)安全技術。隨著新的更為復雜的脫敏需求不斷產生,數(shù)據(jù)脫敏技術也會隨之不斷演化發(fā)展,數(shù)據(jù)脫敏工具產品市場也將更加廣闊。因此,相應的標準化工作將更為重要,成為在技術不斷提升的同時不可忽略的配套工作。
 
參考文獻
 
[1] IBM Security, Ponemon Institute. 2019年數(shù)據(jù)泄露成本報告[R], 2019.
 
[2] 國家互聯(lián)網信息辦公室. 數(shù)據(jù)安全管理辦法(征求意見稿)[Z], 2019.
 
[3] Sweeney L. K-anonymity: A model for protecting privacy[M]. World Scientific Publishing Co. Inc, 2002.
 
[4] Ashwin Machanavajjhala, Johannes Gehrke, Daniel Kifer.l-Diversity: Privacy beyond k-anonymity[C]//Proceedings of the 22nd International Conference on DataEngineering, ICDE 2006, 3-8 April 2006, Atlanta, GA,USA. IEEE, 2006.
 
[5] Ninghui Li, Tiancheng Li, Suresh Venkatasubramanian.t-Closeness: Privacy beyond k-anonymity and I-diversity[C]//Data Engineering, 2007. ICDE 2007. IEEE 23rdInternational Conference on. IEEE, 2007.
 
[6] Gartner. Market guide for data masking[R], 2019.

鏈接已復制,快去分享吧

企業(yè)網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號