隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)價值的深度應(yīng)用成為助力企業(yè)發(fā)展的重要源動力。在企業(yè)的數(shù)字化轉(zhuǎn)型過程中,加強數(shù)據(jù)治理、深化數(shù)據(jù)開發(fā)、保障數(shù)據(jù)安全成為釋放數(shù)據(jù)價值的關(guān)鍵環(huán)節(jié),而強化數(shù)據(jù)安全對企業(yè)的數(shù)字化轉(zhuǎn)型和升級起著至關(guān)重要的作用。
基于此,CIO時代、新基建創(chuàng)新研究院聯(lián)合霍因科技推出“霍因安全觀”系列線上微課堂,詳細(xì)介紹數(shù)據(jù)安全治理的方法論、先進技術(shù)、典型案例及實踐成果,展現(xiàn)數(shù)據(jù)安全治理的全生命周期管理,助力企業(yè)的數(shù)字化轉(zhuǎn)型與升級。
大數(shù)據(jù)時代,所有數(shù)據(jù)都具有了一定的價值。價值的背后潛藏著巨大風(fēng)險,大量敏感數(shù)據(jù)被販賣、竊取和無授權(quán)濫用,這一問題已經(jīng)嚴(yán)重危害到個人隱私、企業(yè)發(fā)展甚至國家安全。
首期“霍因安全觀”系列微課堂,我們共同關(guān)注一下人工智能在全域敏感數(shù)據(jù)發(fā)現(xiàn)中的應(yīng)用。
如何邁好數(shù)據(jù)安全治理的第一步
數(shù)據(jù)安全治理是企業(yè)安全管理的重要組成也是管理難點之一,隨著《網(wǎng)絡(luò)安全法》、《民法典》、《數(shù)據(jù)安全法》和《個人信息保護法》等國家相關(guān)法律法規(guī)的出臺,以及地方性、行業(yè)性的規(guī)范及指導(dǎo)意見的實施,都體現(xiàn)出數(shù)據(jù)安全管理的重要性和必要性。但數(shù)據(jù)安全治理并不是一蹴而就的,從《GB∕T 37988-2019 信息安全技術(shù) 數(shù)據(jù)安全能力成熟度模型》(DSMM模型)中可以看出,數(shù)據(jù)安全是涉及到數(shù)據(jù)完整生命周期的全過程安全管理。
圖:《GB∕T 37988-2019 信息安全技術(shù) 數(shù)據(jù)安全能力成熟度模型》
全域敏感數(shù)據(jù)發(fā)現(xiàn)正在面臨巨大挑戰(zhàn)
對于企業(yè)而言,數(shù)據(jù)安全的核心是針對特定的敏感信息實施安全防護。在數(shù)據(jù)安全治理中,數(shù)據(jù)采集階段的重要目標(biāo)是完成數(shù)據(jù)分類分級??稍趫?zhí)行中,企業(yè)通常會面臨以下的一些挑戰(zhàn):
1. 不知道哪些系統(tǒng)存有需要處置的數(shù)據(jù)?
2. 只有數(shù)據(jù)庫中的數(shù)據(jù)才需要管理么?
3. 如何根據(jù)自身業(yè)務(wù)情況配置分類分級策略?
由此可見,進行數(shù)據(jù)分類分級的前提是了解客戶環(huán)境中全量數(shù)據(jù)情況。從目前主流的數(shù)據(jù)安全管理產(chǎn)品現(xiàn)狀來看,除開進行敏感數(shù)據(jù)發(fā)現(xiàn)時手段單一之外,還存在以下兩方面的問題:
1. 支持的數(shù)據(jù)源范圍有限:以主流的敏感數(shù)據(jù)掃描產(chǎn)品為例,在進行敏感數(shù)據(jù)發(fā)現(xiàn)時,主要面向的是數(shù)據(jù)庫系統(tǒng),但大量客戶的數(shù)據(jù)使用環(huán)境并不是只有數(shù)據(jù)庫,包括企業(yè)網(wǎng)盤、流程平臺、大數(shù)據(jù)開發(fā)甚至IM通訊軟件中都存有大量的敏感信息數(shù)據(jù)。
2. 數(shù)據(jù)發(fā)現(xiàn)的手段單一:傳統(tǒng)的數(shù)據(jù)安全產(chǎn)品依據(jù)的是大量定義正則表達(dá)式規(guī)則匹配完成數(shù)據(jù)庫的敏感數(shù)據(jù)掃描。數(shù)據(jù)發(fā)現(xiàn)的范圍及精準(zhǔn)度完全依賴于正則規(guī)則豐富度及準(zhǔn)確度。很難確保數(shù)據(jù)發(fā)現(xiàn)不出現(xiàn)遺漏、偏離等問題。
除此之外,諸如大量人工配置、發(fā)現(xiàn)效率低等問題都制約了客戶完成數(shù)據(jù)安全治理的目標(biāo)達(dá)成。
全域敏感數(shù)據(jù)發(fā)現(xiàn)的秘密武器
經(jīng)過霍因的長期經(jīng)驗總結(jié),機器學(xué)習(xí)是目前分析、理解、識別數(shù)據(jù)模式的最佳工具。在數(shù)據(jù)安全治理過中合理的借助機器學(xué)習(xí)的能力,能有效解決全域敏感數(shù)據(jù)發(fā)現(xiàn)過程中準(zhǔn)確度、匹配度等問題。
其次,機器學(xué)習(xí)具備廣泛的技術(shù)適配性,可通過多種技術(shù)的復(fù)合應(yīng)用來解決企業(yè)應(yīng)用場景中異構(gòu)數(shù)據(jù)類型及不同數(shù)據(jù)源的全域敏感數(shù)據(jù)的發(fā)現(xiàn)。
例如,在針對傳統(tǒng)敏感數(shù)據(jù)發(fā)現(xiàn)產(chǎn)品中不具備的非結(jié)構(gòu)化數(shù)據(jù)掃描,可通過NLP(自然語言處理)技術(shù)進行掃描及敏感特征發(fā)現(xiàn),還可以通過k-means算法技術(shù)完成相似數(shù)據(jù)的發(fā)現(xiàn)、聚類識別等。
2)AI(人工智能)賦能全域敏感數(shù)據(jù)發(fā)現(xiàn)
目前,企業(yè)生成的數(shù)據(jù)量正呈指數(shù)級增長,這是由于隱藏于數(shù)據(jù)庫中所有未被發(fā)現(xiàn)的敏感信息進行評估而產(chǎn)生的。自動化的廣泛應(yīng)用,是可以有效提升數(shù)據(jù)治理的。因此,可通過兩方面實現(xiàn)AI賦能全域敏感數(shù)據(jù)發(fā)現(xiàn):
1、基于AI發(fā)現(xiàn)能力:
通過自動化嗅探技術(shù)將客戶環(huán)境中的存儲進行識別,并通過掃描樣例數(shù)據(jù)摸底,初步梳理出客戶的數(shù)據(jù)資產(chǎn)。包括:
1)通過SQL檢索摸底并梳理結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)信息;
2)通過NLP及對應(yīng)的數(shù)據(jù)學(xué)習(xí)模型完成非結(jié)構(gòu)化文檔中的敏感數(shù)據(jù)解析;
3)通過大數(shù)據(jù)連接組件及內(nèi)置的正則式發(fā)現(xiàn)半結(jié)構(gòu)化數(shù)據(jù)中的敏感信息。
2、利用AI分類分級
在了解客戶基本數(shù)據(jù)環(huán)境情況以后,產(chǎn)品通過內(nèi)置的智能分類器對全量數(shù)據(jù)進行自動化標(biāo)簽處理,并再結(jié)合法律法規(guī)的解讀和導(dǎo)入進行自動化的分級分類處置。在處理過程中,通過聚類算法等方式提高處理效率及準(zhǔn)確性。
本平臺通過實踐DSMM模型期間形成“咨詢-發(fā)現(xiàn)-管控”流程體系,完成數(shù)據(jù)完整生命周期過程中的安全管理工作。平臺采用多種AI技術(shù),將客戶的數(shù)據(jù)環(huán)境通過不同的數(shù)據(jù)發(fā)現(xiàn)及掃描分類技術(shù)進行自動化預(yù)處理。降低客戶在進行數(shù)據(jù)安全治理期間第一步“全域全量數(shù)據(jù)發(fā)現(xiàn)”的難度。
關(guān)于霍因科技
霍因科技是一家專注在為企業(yè)客戶提供數(shù)據(jù)安全的方案/服務(wù)提供商。率先提出下一代數(shù)據(jù)安全理論CDC(Consult-Discover-Control),服務(wù)聚焦于安全合規(guī)驅(qū)動下的數(shù)據(jù)治理方案,采用場景化能力復(fù)用及機器學(xué)習(xí)能力,將數(shù)據(jù)治理與數(shù)據(jù)安全管理能力融合。
基于“Consult-Discover-Control”理念,霍因科技為眾多政企客戶提供實踐數(shù)據(jù)管理及安全合規(guī)方案:從客戶數(shù)據(jù)業(yè)務(wù)的咨詢、法規(guī)理解和導(dǎo)入著手,基于機器學(xué)習(xí)技術(shù)與大數(shù)據(jù)湖倉技術(shù)為企業(yè)構(gòu)建安全的數(shù)據(jù)管理環(huán)境,從而實現(xiàn)基于生態(tài)的全面安全控制。霍因科技在安全驅(qū)動數(shù)據(jù)治理方面的優(yōu)勢:
1. 全域:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)(文件/音視頻)
2. 全場景:個人隱私數(shù)據(jù)、企業(yè)數(shù)據(jù)(商業(yè)數(shù)據(jù)、生產(chǎn)數(shù)據(jù)、經(jīng)營數(shù)據(jù)...)
3. 全鏈路:數(shù)據(jù)在采集、存儲、處理、交換、管理等全鏈路上的安全管理