如何利用人工智能和自動(dòng)化大規(guī)模識(shí)別敏感數(shù)據(jù)

責(zé)任編輯:cres

作者:Helga Labus

2021-09-29 10:28:29

來(lái)源:企業(yè)網(wǎng)D1Net

原創(chuàng)

數(shù)據(jù)泄露和勒索軟件攻擊的數(shù)量將持續(xù)增長(zhǎng),但企業(yè)可以利用人工智能技術(shù)應(yīng)對(duì),這使他們能夠主動(dòng)大規(guī)模識(shí)別敏感數(shù)據(jù)和個(gè)人數(shù)據(jù)。

人工智能敏感信息檢測(cè)服務(wù)商Text IQ公司首席執(zhí)行官Apoorv Agarwal日前在接受行業(yè)媒體采訪時(shí),對(duì)非結(jié)構(gòu)化數(shù)據(jù)面臨的潛在風(fēng)險(xiǎn)以及利用人工智能和自動(dòng)化技術(shù)大規(guī)模識(shí)別敏感數(shù)據(jù)進(jìn)行了分析和闡述。
 
當(dāng)企業(yè)試圖解決漏洞和勒索軟件攻擊時(shí),他們往往忽略了隱藏在其數(shù)據(jù)中的敏感信息。出現(xiàn)這種情況的主要原因是什么?
 
Agarwal:在理想情況下,企業(yè)應(yīng)該掌握敏感信息在其擁有的數(shù)據(jù)中的位置。一般來(lái)說(shuō),企業(yè)將會(huì)長(zhǎng)時(shí)間保留他們收集的信息,即使這些信息對(duì)他們沒(méi)有真正的用處。我認(rèn)為這歸結(jié)為更廣泛的數(shù)據(jù)治理問(wèn)題。
 
如果沒(méi)有實(shí)現(xiàn)一定程度的自動(dòng)化,就不可能有強(qiáng)大的數(shù)據(jù)治理。例如,企業(yè)生成的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),依賴(lài)于工作人員對(duì)隱藏在其數(shù)據(jù)庫(kù)中的所有未被發(fā)現(xiàn)的敏感信息進(jìn)行評(píng)估,而且在通常情況下,非結(jié)構(gòu)化格式的數(shù)據(jù)需要進(jìn)行處理,因此無(wú)法大規(guī)模地開(kāi)展工作。
 
數(shù)據(jù)泄露和勒索軟件攻擊的數(shù)量將持續(xù)增長(zhǎng),但企業(yè)可以利用人工智能技術(shù)應(yīng)對(duì),這使他們能夠主動(dòng)大規(guī)模識(shí)別敏感數(shù)據(jù)和個(gè)人數(shù)據(jù)。一旦識(shí)別了這些數(shù)據(jù),他們就可以選擇編輯、刪除、加密或采取任何必要的措施進(jìn)行保護(hù),以確保不會(huì)落入居心不良的人的手中。
 
非結(jié)構(gòu)化數(shù)據(jù)如何構(gòu)成風(fēng)險(xiǎn)以及可以采取哪些措施?
 
Agarwal:80%以上的企業(yè)數(shù)據(jù)是非結(jié)構(gòu)化的——其龐大的攻擊面使其非常容易成為網(wǎng)絡(luò)攻擊者的目標(biāo)。其次,這種非結(jié)構(gòu)化數(shù)據(jù)充滿(mǎn)了各種類(lèi)型的敏感信息:商業(yè)秘密、個(gè)人信息、健康信息、知識(shí)產(chǎn)權(quán)等;例如,沒(méi)有人能夠構(gòu)建包含商業(yè)秘密的結(jié)構(gòu)化數(shù)據(jù)庫(kù),更有可能散布在電子郵件、聊天記錄、Excel表格和其他形式的非結(jié)構(gòu)化數(shù)據(jù)中。
 
非結(jié)構(gòu)化數(shù)據(jù)帶來(lái)的挑戰(zhàn)是數(shù)據(jù)量巨大,找到其中的敏感信息就像大海撈針一樣,因此需要采用可擴(kuò)展的機(jī)器學(xué)習(xí)技術(shù)。
 
自動(dòng)化是唯一的出路還是人為因素仍然有價(jià)值?
 
Agarwal:我認(rèn)為數(shù)據(jù)的增長(zhǎng)速度顯然比人口增長(zhǎng)的速度更快。如果沒(méi)有足夠的人力,就沒(méi)有足夠的能力來(lái)處理任務(wù)的數(shù)量和復(fù)雜性。
 
我認(rèn)為同樣重要的是要注意,采用人工智能技術(shù)或機(jī)器人并不是只需按一下按鈕就可以自動(dòng)完成這些任務(wù),確實(shí)需要人類(lèi)的幫助。而這項(xiàng)工作不能單獨(dú)由機(jī)器或人類(lèi)完成。
 
能否解釋一下人工智能是如何識(shí)別和保護(hù)敏感信息的嗎?
 
Agarwal:人工智能不會(huì)保護(hù)敏感信息,但是會(huì)識(shí)別。一旦識(shí)別出敏感信息,企業(yè)就可以通過(guò)刪除、編輯、加密或更改對(duì)它的訪問(wèn)控制來(lái)采取措施進(jìn)行保護(hù)。
 
其挑戰(zhàn)在于識(shí)別本身。在識(shí)別方面,如今采用的是一些過(guò)時(shí)的方法和技術(shù),例如RegEx和搜索詞。除了速度慢且可擴(kuò)展性不高之外,這些勞動(dòng)密集型方法產(chǎn)生的結(jié)果可能并不準(zhǔn)確。
 
但并非每個(gè)9位數(shù)字都是社會(huì)安全號(hào)碼(SSN)。另一方面,人工智能系統(tǒng)可以查看信息所在的場(chǎng)景,以更準(zhǔn)確地確定信息是否敏感。例如電子郵件。在分析電子郵件的敏感信息時(shí),人工智能能夠考慮場(chǎng)景,例如誰(shuí)寫(xiě)的、誰(shuí)獲得、誰(shuí)被復(fù)制到電子郵件鏈中的人之間的關(guān)系網(wǎng)絡(luò),以確定一些電子郵件是否敏感。
 
在理論上,人類(lèi)可以對(duì)所有這些場(chǎng)景進(jìn)行評(píng)估和衡量,但沒(méi)有足夠的人手來(lái)實(shí)現(xiàn)這一點(diǎn);此外,雖然人類(lèi)不擅長(zhǎng)計(jì)算任務(wù),但更擅長(zhǎng)抽象思維。
 
企業(yè)保護(hù)數(shù)據(jù)的方式可能對(duì)其整體業(yè)務(wù)和聲譽(yù)產(chǎn)生重大影響。您認(rèn)為他們對(duì)此有多了解?您認(rèn)為應(yīng)該改進(jìn)哪些方面?
 
Agarwal:很多企業(yè)對(duì)于數(shù)據(jù)泄露對(duì)整體業(yè)務(wù)和聲譽(yù)帶來(lái)的損失和影響非常了解。沒(méi)有哪一家企業(yè)認(rèn)為它完全不受數(shù)據(jù)泄露的影響。企業(yè)董事會(huì)成員了解這些非常重要。
 
這是可以改進(jìn)的地方。長(zhǎng)期以來(lái),很多企業(yè)一直依賴(lài)數(shù)據(jù)丟失防護(hù)、搜索詞和人工審核。他們真的需要轉(zhuǎn)向并利用人工智能等新技術(shù)。
 
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)