1024在线国产,亚洲AV日韩AV无码AV另类

大數(shù)據(jù)安全保護思考

責任編輯：editor006

作者：mcvoodoo

2018-01-21 18:54:44

摘自：黑客與極客

紅色這條線看起來是最失敗的，既沒有技術(shù)價值，也沒有可以炒作的概念，分別對應(yīng)了安全管理和企業(yè)權(quán)限管理。簡單一點，可以把這個東西理解為數(shù)據(jù)資產(chǎn)地圖或者數(shù)據(jù)態(tài)勢感知這種dashboard，在下面有很多組件來支撐。

隨著大數(shù)據(jù)時代的來臨，企業(yè)數(shù)據(jù)開始激增，各種數(shù)據(jù)在云端、移動設(shè)備、關(guān)系型數(shù)據(jù)庫、大數(shù)據(jù)庫平臺、pc端、采集器端等多個位置分散。對數(shù)據(jù)安全來說，挑戰(zhàn)也更大了。在大型互聯(lián)網(wǎng)企業(yè)里，傳統(tǒng)方法已經(jīng)很難繪制出一張敏感數(shù)據(jù)流轉(zhuǎn)圖了。因此在新的形勢下，一是在工具層面要有新的手段支撐，包括完整的敏感數(shù)據(jù)視圖、高風險場景識別、數(shù)據(jù)違規(guī)/濫用預(yù)警、數(shù)據(jù)安全事件的發(fā)現(xiàn)檢測和阻止等。二是目前企業(yè)也存在著合規(guī)的問題了，以往合規(guī)對于互聯(lián)網(wǎng)來說沒那么重要，但隨著網(wǎng)安法的出臺，數(shù)據(jù)安全也擺上了日程。另外對于跨境企業(yè)來說，還面臨著海外的數(shù)據(jù)安全法規(guī)。

所以，面臨的挑戰(zhàn)也是顯而易見的。

1、在策略層面：由于海量的數(shù)據(jù)類型，已經(jīng)很難明確定義什么是高敏感數(shù)據(jù)了。同時也存在著多個低敏感數(shù)據(jù)關(guān)聯(lián)后形成高敏感數(shù)據(jù)的普遍情況，甚至到最后，很難說清楚一個數(shù)據(jù)究竟有多少來源。而在一個大型互聯(lián)網(wǎng)集團里，數(shù)據(jù)之間的交互也異常復(fù)雜，數(shù)據(jù)是否經(jīng)過審批，下游如何使用也可能是混亂的。

2、準確性：在混沌的組織結(jié)構(gòu)、超級復(fù)雜且不斷變化的系統(tǒng)里，要想實現(xiàn)數(shù)據(jù)安全的保護，其中一個重點是準確性的考慮。而準確性考慮按照現(xiàn)在的技術(shù)，也到了數(shù)據(jù)上下文、用戶行為分析的階段了，沒有這些方法，誤報將會很多甚至于不可用。

3、及時性：很多業(yè)務(wù)都面臨著迅速上線的壓力，這時候安全就要能拿出一個快速低成本、可擴展的解決方案來，有些方法可能很土，有些方法可能需要人肉，但總體上衡量，應(yīng)該是保護成本小于數(shù)據(jù)成本的可用解決方案。理想情況下，應(yīng)該有工作流、機器學(xué)習、自動化來協(xié)助實現(xiàn)。

4、可擴展性：也要考慮可擴展性，互聯(lián)網(wǎng)行業(yè)里，說不準某個業(yè)務(wù)就突然爆發(fā)，原有的解決方案要能夠?qū)Ρl(fā)后的架構(gòu)進行支持，包括傳統(tǒng)關(guān)系型數(shù)據(jù)庫、大型數(shù)據(jù)倉庫、云環(huán)境等。

還要多說一句，一個有理想的安全人員，不會止步于基礎(chǔ)的保護能力，需要從不同項目中的經(jīng)驗提煉出更多價值和方法。任何數(shù)據(jù)保護方法，最后都應(yīng)形成安全能力組件，為整體能力提供基礎(chǔ)服務(wù)。按照國外某些公司的提法，應(yīng)具備以API為驅(qū)動的安全能力。

業(yè)界也在不斷探索新的方法來解決問題，forreste的報告，描述了這些年在數(shù)據(jù)安全上的各種防范的探索，假定大家都看得懂英文。

圖片 1.png

　　算了，我來解釋下吧。橫軸表示各技術(shù)的成長性，縱軸表示技術(shù)的價值。

紅色這條線看起來是最失敗的，既沒有技術(shù)價值，也沒有可以炒作的概念，分別對應(yīng)了安全管理和企業(yè)權(quán)限管理。

灰色這條線上，有區(qū)塊鏈、安全通信、應(yīng)用層加密、密鑰管理、數(shù)據(jù)分類、各種文件磁盤加密，再到DLP。這一部分價值還是有的，很多都已經(jīng)成為企業(yè)標配技術(shù)，大家都耳熟能詳，冷飯熱炒也炒不出新花樣了。

藍色都是眼下炙手可熱的技術(shù)，包括數(shù)據(jù)分類和flow mapping，數(shù)據(jù)隱私管理、數(shù)據(jù)主體權(quán)利管理、數(shù)據(jù)訪問治理、大數(shù)據(jù)加密、令牌化技術(shù)、云數(shù)據(jù)保護。這一階段的很多解決方案還在摸索實踐中，相對于前面兩條線，藍色線技術(shù)更順應(yīng)大數(shù)據(jù)、云時代的潮流。

一、CASB（云安全接入代理）

CASB的出現(xiàn)是為了解決企業(yè)上云的問題，企業(yè)上云后，數(shù)據(jù)和業(yè)務(wù)系統(tǒng)都不在自己掌握中，為了保證企業(yè)的控制權(quán)，CASB出現(xiàn)了。在企業(yè)和云端之間部署一個代理網(wǎng)關(guān)，對上云的數(shù)據(jù)進行加密，反向則解密，這樣保證了在云端的數(shù)據(jù)都是加密存儲，防止未授權(quán)、黑客、云服務(wù)商獲取數(shù)據(jù)。而負責加解密的KMS功能則獨立管理。

圖片 2.png

粗暴一點的理解，可以認為是一些傳統(tǒng)技術(shù)的合集，從功能上來說，一般包括DLP、身份認證、堡壘機、加解密。如果僅僅是這樣，就成了一個UTM，也未免太沒意思了。因此還有一些新技術(shù)也加入了進去，例如在身份認證上，還包括了基于設(shè)備、基于內(nèi)容、基于應(yīng)用的相關(guān)上下文理解的認證方式。同時也大量使用了機器學(xué)習算法在各模塊中進行保護。

CASB解決的核心是上云的安全，從身份、權(quán)限、審計、防泄漏等角度出發(fā)。由于KMS的中立性，對于中小企業(yè)來說，算是一個可以接受的解決方案。但安全管理本質(zhì)上是一個運營的管理，就像企業(yè)里之前買的各種安全產(chǎn)品，最終能否發(fā)揮作用，還依靠日常運維。

二、tokenization（令牌化）

tokenization最早應(yīng)用于支付行業(yè)，將敏感數(shù)據(jù)（例如銀行卡信息）替換成隨機生成的數(shù)據(jù)，在替換之后，原始數(shù)據(jù)和令牌的映射關(guān)系單獨存放在另一個數(shù)據(jù)庫中。和加密不同的是，原始數(shù)據(jù)和隨機數(shù)據(jù)之間沒有數(shù)學(xué)關(guān)系，對于黑客來說，必須拿到映射關(guān)系表，才有可能拿到原始數(shù)據(jù)。

這樣做的好處是，tokenization請求方可以不必存儲銀行卡信息，而只要存儲隨機數(shù)據(jù)即可，這樣就不必記錄銀行卡信息，安全上消除了一些風險。而且他信息包括發(fā)卡行、有效日期等，也可以在隨機數(shù)據(jù)中用若干字段實現(xiàn)。雖然這樣風險聚集在了tokenization的服務(wù)方，但相對來說，服務(wù)方安全保障能力會更強一些。

這個技術(shù)用在互聯(lián)網(wǎng)公司，也同樣可以借鑒。我記得很早以前看到文章，談到QQ的賬號和密碼保護，就是使用了這個方法，賬號和密碼分別存儲，之間通過一個映射關(guān)系表來對應(yīng)，這也是一種tokenization的用法。

除了賬號和密碼保護，也可以用在其他場景中。例如互聯(lián)網(wǎng)企業(yè)可能存儲了大量用戶手機號、身份證號信息，通過tokenization，可以把數(shù)據(jù)形成一個新的隨機數(shù)據(jù)，原始數(shù)據(jù)則加密存放。同時，可以對手機號相關(guān)信息建立一個緯度，例如標志運營商、地域信息，把這個字段放在隨機數(shù)中，既滿足了業(yè)務(wù)使用要求，也避免了相關(guān)人員接觸到原始敏感數(shù)據(jù)。

Tokenization和Mask的區(qū)別也很簡單，假設(shè)原始手機號是13911111111，Tokenization后變成13911112987，保持了運營商和歸屬地不變。而Mask后變成1391111****，后面四位不可見。當然mask也分為動態(tài)掩碼和靜態(tài)掩碼，這里不做展開。

圖片 3.png

　　三、大數(shù)據(jù)加密

當大量數(shù)據(jù)被存放在Hadoop平臺上的時候，這個大數(shù)據(jù)平臺就成為了風險最集中的位置。Hadoop的生態(tài)系統(tǒng)核心是HDFS，從2.6版本開始HDFS支持原生靜態(tài)加密，可以理解為一種應(yīng)用層加密。

Hadoop生產(chǎn)集群通常都有成千上萬的節(jié)點，把數(shù)據(jù)機密到HDFS之外的組件導(dǎo)致了很大的復(fù)雜性。另外，大規(guī)模加密還有一個難點是對于密鑰的管理，要考慮速度和性能、對Hadoop的支持程度、管理難度問題。好消息是Rhino已經(jīng)開源，在這之前對于數(shù)據(jù)的加密只能考慮全盤加密或文件系統(tǒng)加密。

另外，僅僅是對靜態(tài)數(shù)據(jù)加密是不夠的，數(shù)據(jù)在傳輸時的動態(tài)安全也需要加密，Hadoop有一堆的網(wǎng)絡(luò)通信方式，RPC、TCP/IP、HTTP，對應(yīng)到不同的動態(tài)加密方法。

夠了么？還不夠。綜合起來來看，敏感數(shù)據(jù)不僅在HDFS上，還有各種與Hadoop交互的系統(tǒng)上，包括了mysql、oracle甚至臨時文件、日志、元數(shù)據(jù)等各種地方。比如你要把線上生產(chǎn)數(shù)據(jù)庫導(dǎo)入到大數(shù)據(jù)平臺，在從源頭到HDFS的通道中的加密也需要考慮，否則只要通過嗅探就可以獲取。同樣，在數(shù)據(jù)提取和客戶端訪問上，也需要考慮。

除了這些，還有其它讓人頭疼的各種數(shù)據(jù)應(yīng)用場景，比如加密后的搜索、數(shù)據(jù)脫敏后的聚合隱私泄漏等等，現(xiàn)在都還在研究的概念上，無法落地。

所以目前，并沒有一個完整視圖的解決方案，因此需求很大，但能夠提供完整方案的一個也沒有。還需時日。

四、身份識別與訪問管理

對敏感數(shù)據(jù)的位置、權(quán)限和活動的可視性管理，能夠大規(guī)模自動化管理權(quán)限和數(shù)據(jù)，也即是IAM。這個概念出現(xiàn)很久了，之所以又被拿出來說，是因為一些新計入的加速融入，包括云身份管理、欺詐檢測、UEBA、物聯(lián)網(wǎng)、機器學(xué)習等技術(shù)。Gartner估計，到2022年，IAM的三分之一將由AI驅(qū)動。

在大型互聯(lián)公司里，身份、權(quán)限、策略、資源、行為、設(shè)備，可能有幾萬億的關(guān)系連接，這個世界上唯一不變的就是變化，這么多關(guān)系再加上實時動態(tài)的變化。如果不動用機器算法，是無法全面管理的。除了關(guān)系，IAM還涉及到和內(nèi)部系統(tǒng)的多種集成，例如SOC、DLP、SSO等繼承。

在新的思路下，可以把以前的場景用另外的方法關(guān)聯(lián)表達出來。例如，以前的權(quán)限梳理，是把用戶配置成不同的組，審查重點是用戶的權(quán)限分配屬否合理。在智能驅(qū)動下的權(quán)限管理，可以有很多不同，比如：張三有權(quán)訪問一臺服務(wù)器，他是這個部門中唯一有權(quán)限的人嗎？又或者：張三整個部門都在訪問一個共享文件夾，但只有李四是在周末訪問的。再比如，有一個高敏感的數(shù)據(jù)，王二麻子和張三的使用率比其他人高出200%。某天，突然發(fā)現(xiàn)客服員工申請vpn急劇增加，調(diào)查發(fā)現(xiàn)，是由于當?shù)卮笱?dǎo)致交通不暢，因此需要在家辦公。這些具體問題在機器學(xué)習里，可以通過異常檢測（或者是離散群分析）分析出來：某幾個人和其他人的不同，從而形成對風險的判斷。當風險點發(fā)現(xiàn)，可以通過調(diào)查來確認風險，然后再來調(diào)整算法。

因此，IAM在新技術(shù)的驅(qū)動下，會有一個更深刻的變化。

五、數(shù)據(jù)主體權(quán)限管理

之所以有這么個看起來很奇怪的數(shù)據(jù)主體權(quán)限管理，是由于歐盟GDPR（一般數(shù)據(jù)保護條例）的出臺，GDPR規(guī)定了個人數(shù)據(jù)的權(quán)利，包括被遺忘的權(quán)利、刪除權(quán)等等。這個條例會產(chǎn)生很大的市場，雖然是歐盟的，但所有和歐盟打交道的公司，都要遵從這一標準，否則會被罰款?？雌饋碇皇且粋€合規(guī)要求而已，但實際上在實際應(yīng)用中，也有很多可借鑒的地方。

要保護個人數(shù)據(jù)，首先得知道這些數(shù)據(jù)都在哪，也就是數(shù)據(jù)發(fā)現(xiàn)的能力?？梢酝ㄟ^對線上數(shù)據(jù)庫抽樣掃描、大數(shù)據(jù)倉庫的元數(shù)據(jù)分析、dlp的本地掃描等來實現(xiàn)。但在實踐中，還會有幾個方面的問題。一是基于正則表達式的規(guī)則不靠譜，比如銀行卡號這種信息，用正則表達式會產(chǎn)生大量的誤報問題。二是在大數(shù)據(jù)平臺的前提下，缺少快速準確的發(fā)現(xiàn)工具。三是很多數(shù)據(jù)都是非結(jié)構(gòu)化的，比如個人交易金額，很難定義出一個規(guī)則。四是按照GDPR，還得有個可索引的系統(tǒng)，能夠迅速從全量數(shù)據(jù)中找到某個人的信息數(shù)據(jù)元。

與這些問題相對應(yīng)，機器學(xué)習可以解決的規(guī)則不準確、非結(jié)構(gòu)化的問題，通過對上下文分析、語義理解、血緣關(guān)系追蹤、元數(shù)據(jù)來提高。而通過在數(shù)據(jù)節(jié)點上分發(fā)搜索，能夠全量感知敏感數(shù)據(jù)位置，再精細一點，可以使用敏感數(shù)據(jù)熱力圖進行預(yù)采樣。

解決了數(shù)據(jù)發(fā)現(xiàn)的問題，還有數(shù)據(jù)的訪問跟蹤，每個業(yè)務(wù)、每個應(yīng)用、每個用戶對數(shù)據(jù)的訪問，都要能跟蹤到。說起來有點繞，舉個例子，某客戶投訴個人信息被泄漏，按照GDPR，你必須在72小時內(nèi)作出響應(yīng)動作來證明自己是清白的/有污點的。這時候你就要能夠立刻知道，數(shù)據(jù)在哪里，在什么時間什么地點被誰訪問過，然后根據(jù)這些上下游分析異常，完美的情況下，應(yīng)該直接根據(jù)自動的風險規(guī)則來查出異常。

根據(jù)GDPR，你還要能夠服從客戶的意愿，假設(shè)客戶要求你立刻刪除所有與他相關(guān)的信息。這就需要強制性的響應(yīng)措施，從不同節(jié)點修改/刪除數(shù)據(jù)。

最后，通過一個類似于數(shù)據(jù)資產(chǎn)地圖的形式，展現(xiàn)出來。

簡單一點，可以把這個東西理解為數(shù)據(jù)資產(chǎn)地圖或者數(shù)據(jù)態(tài)勢感知這種dashboard，在下面有很多組件來支撐。

六、數(shù)據(jù)隱私管理解決方案

也基于整體的需求，出現(xiàn)這一類服務(wù)，幫助建設(shè)隱私管理。這不是一個技術(shù)，而是一個專項的數(shù)據(jù)安全風險評估。大體上來說，數(shù)據(jù)安全風險評估的幾個階段：建立團隊—評估風險—設(shè)計和實施控制—維護和加強控制—合規(guī)性。

從GDPR的情況來看，未來企業(yè)可能需要一個“數(shù)據(jù)隱私保護官”的崗位，當然實際落地也可能是由信息安全來擔任。這就在原來的信息安全上延伸更為廣義了，隱私保護包括的環(huán)節(jié)很多，從數(shù)據(jù)采集到數(shù)據(jù)輸出都有對應(yīng)的環(huán)節(jié)存在，也比以前的信息安全范圍更大。能否利用好GDPR來擴展安全部門在企業(yè)內(nèi)部的影響力，是考驗的時刻。

風險評估階段，重點是圍繞數(shù)據(jù)安全生命周期來開展。從關(guān)鍵崗位開始收集信息，包括了數(shù)據(jù)采集、存儲、使用、轉(zhuǎn)移、處理的環(huán)節(jié)。并且以數(shù)據(jù)和視覺形式記錄信息，也就是數(shù)據(jù)移動的地圖。通過風險評估識別出差距，并且根據(jù)優(yōu)先級來考慮解決方案。

設(shè)計和實施階段，對數(shù)據(jù)的保護，一定是從高敏感數(shù)據(jù)開始的。另外，對數(shù)據(jù)隱私的保護，在開展中可能會面臨各種阻礙，這就要求數(shù)據(jù)安全部門能夠有技巧的溝通，比如面向高管，這些數(shù)據(jù)的泄漏可能造成的后果，競爭對手從我們這里拿到了什么數(shù)據(jù)。面向技術(shù)部門，則可以列出競爭對手公司的對標，以及數(shù)據(jù)安全責任的歸屬。

而在維護和加強控制階段，以國內(nèi)的大型互聯(lián)網(wǎng)企業(yè)來說，拍腦門就可以知道的風險域：系統(tǒng)變更、數(shù)據(jù)變更、國際業(yè)務(wù)、大型數(shù)據(jù)倉庫、兼并收購、新增產(chǎn)品、高敏感數(shù)據(jù)管理、外包管理等，都是高風險區(qū)域。事實上很多公司在數(shù)據(jù)泄漏后，都無法追責，因為并不知道數(shù)據(jù)是從哪里泄漏出去的，因為根本不知道數(shù)據(jù)移動地圖是怎樣的。

合規(guī)性還是主要是指GDPR，定期評估、記錄、合規(guī)性報告等。

目前國內(nèi)來說，能幫助進行數(shù)據(jù)安全評估的公司并不多，設(shè)計出符合現(xiàn)狀的低成本解決方案的更不多。隨著國內(nèi)對隱私立法的逐漸重視，這一塊也會逐漸形成市場。

七、綜述

forreste的報告中還提及了一些其他技術(shù)，在前面幾塊內(nèi)容中我也陸陸續(xù)續(xù)提到了，包括數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)分類、企業(yè)級密鑰管理、應(yīng)用層加密這些內(nèi)容。

對數(shù)據(jù)安全的綜合治理，核心思路其實就是一個：數(shù)據(jù)流動地圖，抓住這條主線，也就是以數(shù)據(jù)為核心的安全保護。大數(shù)據(jù)時代，基于邊界的方法已經(jīng)過時了，你無法阻擋數(shù)據(jù)的流動。而在新的時代，還有很多未能解決的難題，換句話說，作為一個安全人員，你是在挖洞的如云高手中殺出一條血路，還是在這個需要探索的領(lǐng)域做先頭兵？

數(shù)據(jù)安全代理網(wǎng)關(guān)