隨著大數(shù)據(jù)時代的來臨,企業(yè)數(shù)據(jù)開始激增,各種數(shù)據(jù)在云端、移動設(shè)備、關(guān)系型數(shù)據(jù)庫、大數(shù)據(jù)庫平臺、pc端、采集器端等多個位置分散。對數(shù)據(jù)安全來說,挑戰(zhàn)也更大了。在大型互聯(lián)網(wǎng)企業(yè)里,傳統(tǒng)方法已經(jīng)很難繪制出一張敏感數(shù)據(jù)流轉(zhuǎn)圖了。因此在新的形勢下,一是在工具層面要有新的手段支撐,包括完整的敏感數(shù)據(jù)視圖、高風險場景識別、數(shù)據(jù)違規(guī)/濫用預(yù)警、數(shù)據(jù)安全事件的發(fā)現(xiàn)檢測和阻止等。二是目前企業(yè)也存在著合規(guī)的問題了,以往合規(guī)對于互聯(lián)網(wǎng)來說沒那么重要,但隨著網(wǎng)安法的出臺,數(shù)據(jù)安全也擺上了日程。另外對于跨境企業(yè)來說,還面臨著海外的數(shù)據(jù)安全法規(guī)。
所以,面臨的挑戰(zhàn)也是顯而易見的。
1、 在策略層面:由于海量的數(shù)據(jù)類型,已經(jīng)很難明確定義什么是高敏感數(shù)據(jù)了。同時也存在著多個低敏感數(shù)據(jù)關(guān)聯(lián)后形成高敏感數(shù)據(jù)的普遍情況,甚至到最后,很難說清楚一個數(shù)據(jù)究竟有多少來源。而在一個大型互聯(lián)網(wǎng)集團里,數(shù)據(jù)之間的交互也異常復(fù)雜,數(shù)據(jù)是否經(jīng)過審批,下游如何使用也可能是混亂的。
2、 準確性:在混沌的組織結(jié)構(gòu)、超級復(fù)雜且不斷變化的系統(tǒng)里,要想實現(xiàn)數(shù)據(jù)安全的保護,其中一個重點是準確性的考慮。而準確性考慮按照現(xiàn)在的技術(shù),也到了數(shù)據(jù)上下文、用戶行為分析的階段了,沒有這些方法,誤報將會很多甚至于不可用。
3、 及時性:很多業(yè)務(wù)都面臨著迅速上線的壓力,這時候安全就要能拿出一個快速低成本、可擴展的解決方案來,有些方法可能很土,有些方法可能需要人肉,但總體上衡量,應(yīng)該是保護成本小于數(shù)據(jù)成本的可用解決方案。理想情況下,應(yīng)該有工作流、機器學(xué)習、自動化來協(xié)助實現(xiàn)。
4、 可擴展性:也要考慮可擴展性,互聯(lián)網(wǎng)行業(yè)里,說不準某個業(yè)務(wù)就突然爆發(fā),原有的解決方案要能夠?qū)Ρl(fā)后的架構(gòu)進行支持,包括傳統(tǒng)關(guān)系型數(shù)據(jù)庫、大型數(shù)據(jù)倉庫、云環(huán)境等。
還要多說一句,一個有理想的安全人員,不會止步于基礎(chǔ)的保護能力,需要從不同項目中的經(jīng)驗提煉出更多價值和方法。任何數(shù)據(jù)保護方法,最后都應(yīng)形成安全能力組件,為整體能力提供基礎(chǔ)服務(wù)。按照國外某些公司的提法,應(yīng)具備以API為驅(qū)動的安全能力。
業(yè)界也在不斷探索新的方法來解決問題,forreste的報告,描述了這些年在數(shù)據(jù)安全上的各種防范的探索,假定大家都看得懂英文。
算了,我來解釋下吧。橫軸表示各技術(shù)的成長性,縱軸表示技術(shù)的價值。
紅色這條線看起來是最失敗的,既沒有技術(shù)價值,也沒有可以炒作的概念,分別對應(yīng)了安全管理和企業(yè)權(quán)限管理。
灰色這條線上,有區(qū)塊鏈、安全通信、應(yīng)用層加密、密鑰管理、數(shù)據(jù)分類、各種文件磁盤加密,再到DLP。這一部分價值還是有的,很多都已經(jīng)成為企業(yè)標配技術(shù),大家都耳熟能詳,冷飯熱炒也炒不出新花樣了。
藍色都是眼下炙手可熱的技術(shù),包括數(shù)據(jù)分類和flow mapping,數(shù)據(jù)隱私管理、數(shù)據(jù)主體權(quán)利管理、數(shù)據(jù)訪問治理、大數(shù)據(jù)加密、令牌化技術(shù)、云數(shù)據(jù)保護。這一階段的很多解決方案還在摸索實踐中,相對于前面兩條線,藍色線技術(shù)更順應(yīng)大數(shù)據(jù)、云時代的潮流。
一、CASB(云安全接入代理)
CASB的出現(xiàn)是為了解決企業(yè)上云的問題,企業(yè)上云后,數(shù)據(jù)和業(yè)務(wù)系統(tǒng)都不在自己掌握中,為了保證企業(yè)的控制權(quán),CASB出現(xiàn)了。在企業(yè)和云端之間部署一個代理網(wǎng)關(guān),對上云的數(shù)據(jù)進行加密,反向則解密,這樣保證了在云端的數(shù)據(jù)都是加密存儲,防止未授權(quán)、黑客、云服務(wù)商獲取數(shù)據(jù)。而負責加解密的KMS功能則獨立管理。
粗暴一點的理解,可以認為是一些傳統(tǒng)技術(shù)的合集,從功能上來說,一般包括DLP、身份認證、堡壘機、加解密。如果僅僅是這樣,就成了一個UTM,也未免太沒意思了。因此還有一些新技術(shù)也加入了進去,例如在身份認證上,還包括了基于設(shè)備、基于內(nèi)容、基于應(yīng)用的相關(guān)上下文理解的認證方式。同時也大量使用了機器學(xué)習算法在各模塊中進行保護。
CASB解決的核心是上云的安全,從身份、權(quán)限、審計、防泄漏等角度出發(fā)。由于KMS的中立性,對于中小企業(yè)來說,算是一個可以接受的解決方案。但安全管理本質(zhì)上是一個運營的管理,就像企業(yè)里之前買的各種安全產(chǎn)品,最終能否發(fā)揮作用,還依靠日常運維。
二、tokenization(令牌化)
tokenization最早應(yīng)用于支付行業(yè),將敏感數(shù)據(jù)(例如銀行卡信息)替換成隨機生成的數(shù)據(jù),在替換之后,原始數(shù)據(jù)和令牌的映射關(guān)系單獨存放在另一個數(shù)據(jù)庫中。和加密不同的是,原始數(shù)據(jù)和隨機數(shù)據(jù)之間沒有數(shù)學(xué)關(guān)系,對于黑客來說,必須拿到映射關(guān)系表,才有可能拿到原始數(shù)據(jù)。
這樣做的好處是,tokenization請求方可以不必存儲銀行卡信息,而只要存儲隨機數(shù)據(jù)即可,這樣就不必記錄銀行卡信息,安全上消除了一些風險。而且他信息包括發(fā)卡行、有效日期等,也可以在隨機數(shù)據(jù)中用若干字段實現(xiàn)。雖然這樣風險聚集在了tokenization的服務(wù)方,但相對來說,服務(wù)方安全保障能力會更強一些。
這個技術(shù)用在互聯(lián)網(wǎng)公司,也同樣可以借鑒。我記得很早以前看到文章,談到QQ的賬號和密碼保護,就是使用了這個方法,賬號和密碼分別存儲,之間通過一個映射關(guān)系表來對應(yīng),這也是一種tokenization的用法。
除了賬號和密碼保護,也可以用在其他場景中。例如互聯(lián)網(wǎng)企業(yè)可能存儲了大量用戶手機號、身份證號信息,通過tokenization,可以把數(shù)據(jù)形成一個新的隨機數(shù)據(jù),原始數(shù)據(jù)則加密存放。同時,可以對手機號相關(guān)信息建立一個緯度,例如標志運營商、地域信息,把這個字段放在隨機數(shù)中,既滿足了業(yè)務(wù)使用要求,也避免了相關(guān)人員接觸到原始敏感數(shù)據(jù)。
Tokenization和Mask的區(qū)別也很簡單,假設(shè)原始手機號是13911111111,Tokenization后變成13911112987,保持了運營商和歸屬地不變。而Mask后變成1391111****,后面四位不可見。當然mask也分為動態(tài)掩碼和靜態(tài)掩碼,這里不做展開。
三、大數(shù)據(jù)加密
當大量數(shù)據(jù)被存放在Hadoop平臺上的時候,這個大數(shù)據(jù)平臺就成為了風險最集中的位置。Hadoop的生態(tài)系統(tǒng)核心是HDFS,從2.6版本開始HDFS支持原生靜態(tài)加密,可以理解為一種應(yīng)用層加密。
Hadoop生產(chǎn)集群通常都有成千上萬的節(jié)點,把數(shù)據(jù)機密到HDFS之外的組件導(dǎo)致了很大的復(fù)雜性。另外,大規(guī)模加密還有一個難點是對于密鑰的管理,要考慮速度和性能、對Hadoop的支持程度、管理難度問題。好消息是Rhino已經(jīng)開源,在這之前對于數(shù)據(jù)的加密只能考慮全盤加密或文件系統(tǒng)加密。
另外,僅僅是對靜態(tài)數(shù)據(jù)加密是不夠的,數(shù)據(jù)在傳輸時的動態(tài)安全也需要加密,Hadoop有一堆的網(wǎng)絡(luò)通信方式,RPC、TCP/IP、HTTP,對應(yīng)到不同的動態(tài)加密方法。
夠了么?還不夠。綜合起來來看,敏感數(shù)據(jù)不僅在HDFS上,還有各種與Hadoop交互的系統(tǒng)上,包括了mysql、oracle甚至臨時文件、日志、元數(shù)據(jù)等各種地方。比如你要把線上生產(chǎn)數(shù)據(jù)庫導(dǎo)入到大數(shù)據(jù)平臺,在從源頭到HDFS的通道中的加密也需要考慮,否則只要通過嗅探就可以獲取。同樣,在數(shù)據(jù)提取和客戶端訪問上,也需要考慮。
除了這些,還有其它讓人頭疼的各種數(shù)據(jù)應(yīng)用場景,比如加密后的搜索、數(shù)據(jù)脫敏后的聚合隱私泄漏等等,現(xiàn)在都還在研究的概念上,無法落地。
所以目前,并沒有一個完整視圖的解決方案,因此需求很大,但能夠提供完整方案的一個也沒有。還需時日。
四、身份識別與訪問管理
對敏感數(shù)據(jù)的位置、權(quán)限和活動的可視性管理,能夠大規(guī)模自動化管理權(quán)限和數(shù)據(jù),也即是IAM。這個概念出現(xiàn)很久了,之所以又被拿出來說,是因為一些新計入的加速融入,包括云身份管理、欺詐檢測、UEBA、物聯(lián)網(wǎng)、機器學(xué)習等技術(shù)。Gartner估計,到2022年,IAM的三分之一將由AI驅(qū)動。
在大型互聯(lián)公司里,身份、權(quán)限、策略、資源、行為、設(shè)備,可能有幾萬億的關(guān)系連接,這個世界上唯一不變的就是變化,這么多關(guān)系再加上實時動態(tài)的變化。如果不動用機器算法,是無法全面管理的。除了關(guān)系,IAM還涉及到和內(nèi)部系統(tǒng)的多種集成,例如SOC、DLP、SSO等繼承。
在新的思路下,可以把以前的場景用另外的方法關(guān)聯(lián)表達出來。例如,以前的權(quán)限梳理,是把用戶配置成不同的組,審查重點是用戶的權(quán)限分配屬否合理。在智能驅(qū)動下的權(quán)限管理,可以有很多不同,比如:張三有權(quán)訪問一臺服務(wù)器,他是這個部門中唯一有權(quán)限的人嗎?又或者:張三整個部門都在訪問一個共享文件夾,但只有李四是在周末訪問的。再比如,有一個高敏感的數(shù)據(jù),王二麻子和張三的使用率比其他人高出200%。某天,突然發(fā)現(xiàn)客服員工申請vpn急劇增加,調(diào)查發(fā)現(xiàn),是由于當?shù)卮笱?dǎo)致交通不暢,因此需要在家辦公。這些具體問題在機器學(xué)習里,可以通過異常檢測(或者是離散群分析)分析出來:某幾個人和其他人的不同,從而形成對風險的判斷。當風險點發(fā)現(xiàn),可以通過調(diào)查來確認風險,然后再來調(diào)整算法。
因此,IAM在新技術(shù)的驅(qū)動下,會有一個更深刻的變化。
五、數(shù)據(jù)主體權(quán)限管理
之所以有這么個看起來很奇怪的數(shù)據(jù)主體權(quán)限管理,是由于歐盟GDPR(一般數(shù)據(jù)保護條例)的出臺,GDPR規(guī)定了個人數(shù)據(jù)的權(quán)利,包括被遺忘的權(quán)利、刪除權(quán)等等。這個條例會產(chǎn)生很大的市場,雖然是歐盟的,但所有和歐盟打交道的公司,都要遵從這一標準,否則會被罰款??雌饋碇皇且粋€合規(guī)要求而已,但實際上在實際應(yīng)用中,也有很多可借鑒的地方。
要保護個人數(shù)據(jù),首先得知道這些數(shù)據(jù)都在哪,也就是數(shù)據(jù)發(fā)現(xiàn)的能力??梢酝ㄟ^對線上數(shù)據(jù)庫抽樣掃描、大數(shù)據(jù)倉庫的元數(shù)據(jù)分析、dlp的本地掃描等來實現(xiàn)。但在實踐中,還會有幾個方面的問題。一是基于正則表達式的規(guī)則不靠譜,比如銀行卡號這種信息,用正則表達式會產(chǎn)生大量的誤報問題。二是在大數(shù)據(jù)平臺的前提下,缺少快速準確的發(fā)現(xiàn)工具。三是很多數(shù)據(jù)都是非結(jié)構(gòu)化的,比如個人交易金額,很難定義出一個規(guī)則。四是按照GDPR,還得有個可索引的系統(tǒng),能夠迅速從全量數(shù)據(jù)中找到某個人的信息數(shù)據(jù)元。
與這些問題相對應(yīng),機器學(xué)習可以解決的規(guī)則不準確、非結(jié)構(gòu)化的問題,通過對上下文分析、語義理解、血緣關(guān)系追蹤、元數(shù)據(jù)來提高。而通過在數(shù)據(jù)節(jié)點上分發(fā)搜索,能夠全量感知敏感數(shù)據(jù)位置,再精細一點,可以使用敏感數(shù)據(jù)熱力圖進行預(yù)采樣。
解決了數(shù)據(jù)發(fā)現(xiàn)的問題,還有數(shù)據(jù)的訪問跟蹤,每個業(yè)務(wù)、每個應(yīng)用、每個用戶對數(shù)據(jù)的訪問,都要能跟蹤到。說起來有點繞,舉個例子,某客戶投訴個人信息被泄漏,按照GDPR,你必須在72小時內(nèi)作出響應(yīng)動作來證明自己是清白的/有污點的。這時候你就要能夠立刻知道,數(shù)據(jù)在哪里,在什么時間什么地點被誰訪問過,然后根據(jù)這些上下游分析異常,完美的情況下,應(yīng)該直接根據(jù)自動的風險規(guī)則來查出異常。
根據(jù)GDPR,你還要能夠服從客戶的意愿,假設(shè)客戶要求你立刻刪除所有與他相關(guān)的信息。這就需要強制性的響應(yīng)措施,從不同節(jié)點修改/刪除數(shù)據(jù)。
最后,通過一個類似于數(shù)據(jù)資產(chǎn)地圖的形式,展現(xiàn)出來。
簡單一點,可以把這個東西理解為數(shù)據(jù)資產(chǎn)地圖或者數(shù)據(jù)態(tài)勢感知這種dashboard,在下面有很多組件來支撐。
六、數(shù)據(jù)隱私管理解決方案
也基于整體的需求,出現(xiàn)這一類服務(wù),幫助建設(shè)隱私管理。這不是一個技術(shù),而是一個專項的數(shù)據(jù)安全風險評估。大體上來說,數(shù)據(jù)安全風險評估的幾個階段:建立團隊—評估風險—設(shè)計和實施控制—維護和加強控制—合規(guī)性。
從GDPR的情況來看,未來企業(yè)可能需要一個“數(shù)據(jù)隱私保護官”的崗位,當然實際落地也可能是由信息安全來擔任。這就在原來的信息安全上延伸更為廣義了,隱私保護包括的環(huán)節(jié)很多,從數(shù)據(jù)采集到數(shù)據(jù)輸出都有對應(yīng)的環(huán)節(jié)存在,也比以前的信息安全范圍更大。能否利用好GDPR來擴展安全部門在企業(yè)內(nèi)部的影響力,是考驗的時刻。
風險評估階段,重點是圍繞數(shù)據(jù)安全生命周期來開展。從關(guān)鍵崗位開始收集信息,包括了數(shù)據(jù)采集、存儲、使用、轉(zhuǎn)移、處理的環(huán)節(jié)。并且以數(shù)據(jù)和視覺形式記錄信息,也就是數(shù)據(jù)移動的地圖。通過風險評估識別出差距,并且根據(jù)優(yōu)先級來考慮解決方案。
設(shè)計和實施階段,對數(shù)據(jù)的保護,一定是從高敏感數(shù)據(jù)開始的。另外,對數(shù)據(jù)隱私的保護,在開展中可能會面臨各種阻礙,這就要求數(shù)據(jù)安全部門能夠有技巧的溝通,比如面向高管,這些數(shù)據(jù)的泄漏可能造成的后果,競爭對手從我們這里拿到了什么數(shù)據(jù)。面向技術(shù)部門,則可以列出競爭對手公司的對標,以及數(shù)據(jù)安全責任的歸屬。
而在維護和加強控制階段,以國內(nèi)的大型互聯(lián)網(wǎng)企業(yè)來說,拍腦門就可以知道的風險域:系統(tǒng)變更、數(shù)據(jù)變更、國際業(yè)務(wù)、大型數(shù)據(jù)倉庫、兼并收購、新增產(chǎn)品、高敏感數(shù)據(jù)管理、外包管理等,都是高風險區(qū)域。事實上很多公司在數(shù)據(jù)泄漏后,都無法追責,因為并不知道數(shù)據(jù)是從哪里泄漏出去的,因為根本不知道數(shù)據(jù)移動地圖是怎樣的。
合規(guī)性還是主要是指GDPR,定期評估、記錄、合規(guī)性報告等。
目前國內(nèi)來說,能幫助進行數(shù)據(jù)安全評估的公司并不多,設(shè)計出符合現(xiàn)狀的低成本解決方案的更不多。隨著國內(nèi)對隱私立法的逐漸重視,這一塊也會逐漸形成市場。
七、綜述
forreste的報告中還提及了一些其他技術(shù),在前面幾塊內(nèi)容中我也陸陸續(xù)續(xù)提到了,包括數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)分類、企業(yè)級密鑰管理、應(yīng)用層加密這些內(nèi)容。
對數(shù)據(jù)安全的綜合治理,核心思路其實就是一個:數(shù)據(jù)流動地圖,抓住這條主線,也就是以數(shù)據(jù)為核心的安全保護。大數(shù)據(jù)時代,基于邊界的方法已經(jīng)過時了,你無法阻擋數(shù)據(jù)的流動。而在新的時代,還有很多未能解決的難題,換句話說,作為一個安全人員,你是在挖洞的如云高手中殺出一條血路,還是在這個需要探索的領(lǐng)域做先頭兵?