如何確保人工智能和機器學習項目的安全性

責任編輯:cres

作者:Maria Korolov

2020-09-23 10:14:10

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

人工智能(AI)和機器學習(ML)提供了與早期技術進步相同的漏洞和錯誤配置的機會,而且還有其特有的風險。隨著企業(yè)開始進行以人工智能驅動的數(shù)字化轉型,這些風險可能會變得更大。

人工智能和機器學習在帶來好處的同時也帶來了新的漏洞。本文敘述了幾家公司將風險降至最低的方法。
 
當企業(yè)采用新技術時,安全性往往被放在次要位置,以最低的成本盡快將新產(chǎn)品或服務提供給客戶似乎更為重要。
 
人工智能(AI)和機器學習(ML)提供了與早期技術進步相同的漏洞和錯誤配置的機會,而且還有其特有的風險。隨著企業(yè)開始進行以人工智能驅動的數(shù)字化轉型,這些風險可能會變得更大。博思艾倫漢密爾頓公司(Booz Allen Hamilton)的首席科學家愛德華•拉夫(Edward Raff)表示:“不要倉促地進入這個領域。”
 
與其他技術相比,人工智能和機器學習需要更多的數(shù)據(jù),也需要更復雜的數(shù)據(jù)。數(shù)學家和數(shù)據(jù)科學家開發(fā)的算法來自研究項目。拉夫表示,在科學界,直到最近才開始認識到人工智能存在安全問題。
 
云平臺通常要處理大量的工作負載,從而增加了另一個級別的復雜性和脆弱性。毫不奇怪,網(wǎng)絡安全是人工智能采用者最令人擔憂的風險。德勤上月公布的一項調查顯示,62%的采納者認為網(wǎng)絡安全風險是主要的擔憂,但只有39%的人表示他們準備應對這些風險。
 
讓問題變得更加復雜的是,網(wǎng)絡安全是人工智能使用的首要功能之一。德勤技術、媒體和電信中心的執(zhí)行董事杰夫•洛克斯(Jeff Loucks)表示,企業(yè)在人工智能方面的經(jīng)驗越豐富,他們就越擔心網(wǎng)絡安全風險。
 
此外,即使是經(jīng)驗更豐富的企業(yè),也沒有遵循基本的安全做法,例如對所有AI和ML項目進行完整的審計和測試。Loucks表示,公司目前在實施這些方面做得不是很好。
 
AI和ML對數(shù)據(jù)的需求帶來了風險
 
AI和ML系統(tǒng)需要三組數(shù)據(jù):
 
• 訓練數(shù)據(jù)以建立預測模型
• 測試數(shù)據(jù)以評估模型的運行情況
• 當模型投入使用時運營數(shù)據(jù)
 
雖然實時交易或運營數(shù)據(jù)顯然是一項有價值的企業(yè)資產(chǎn),但很容易忽略也包含敏感信息的訓練和測試數(shù)據(jù)池。
 
許多用于保護其他系統(tǒng)中的數(shù)據(jù)的原則可以應用于AI和ML項目,包括匿名化、令牌化和加密。第一步是詢問是否需要數(shù)據(jù)。在準備AI和ML項目時,收集所有可能的數(shù)據(jù),然后看看可以做些什么。
 
關注業(yè)務成果可以幫助企業(yè)將收集的數(shù)據(jù)限制在所需的范圍內(nèi)。為教育機構分析學生數(shù)據(jù)的Othot公司的首席技術官約翰•阿巴蒂科(John Abbatico)表示,數(shù)據(jù)科學團隊非??释麛?shù)據(jù),他們在處理學生數(shù)據(jù)時明確表示,高度敏感的PII(個人身份信息)不是必需的,也永遠不應該包含在提供給他們團隊的數(shù)據(jù)中。
 
當然,錯誤是會發(fā)生的。例如,客戶有時會提供敏感的個人信息,如社會保險號。這些信息不會提高模型的性能,但會帶來額外的風險。阿巴蒂科表示,他的團隊已經(jīng)制定了一套程序來識別PII,將其從所有系統(tǒng)中清除,并將錯誤通知客戶。
 
人工智能系統(tǒng)還需要情景數(shù)據(jù),這可能會極大地擴大公司的暴露風險。假設一家保險公司想要更好地掌握客戶的駕駛習慣,它可以購買購物、駕駛、位置和其他數(shù)據(jù)集,這些數(shù)據(jù)集可以很容易地交叉關聯(lián)并與客戶賬戶匹配。這種新的、呈指數(shù)級增長的數(shù)據(jù)集對黑客更具吸引力,如果被攻破,對公司的聲譽也會造成更大的破壞。
 
人工智能的安全設計
 
有很多數(shù)據(jù)需要保護的一家公司是在線文件共享平臺Box。Box使用AI提取元數(shù)據(jù),并提高搜索、分類等能力。Box的CISO拉克希米•漢斯帕爾(Lakshmi Hanspal)表示,Box可以從合同中提取條款、續(xù)訂和定價信息。Box的大多數(shù)客戶內(nèi)容分類要么是用戶定義的分類,要么是被完全忽視。他們坐在堆積如山的數(shù)據(jù)上,這些數(shù)據(jù)可能對數(shù)字化轉型有用。
 
漢斯帕爾說,保護數(shù)據(jù)是Box的一個重要事項,同樣的數(shù)據(jù)保護標準也適用于人工智能系統(tǒng),包括訓練數(shù)據(jù)。Box建立信任并保持信任。
 
這意味著所有系統(tǒng),包括新的人工智能項目,都是圍繞核心數(shù)據(jù)安全原則構建的,包括加密、日志記錄、監(jiān)控、身份驗證和訪問控制。漢斯帕爾指出,數(shù)字信任是其平臺與生俱來的,他們將其付諸于實踐。
 
Box對傳統(tǒng)代碼和新的AI和ML支持的系統(tǒng)都有一個安全的開發(fā)流程。漢斯帕爾說:“我們在開發(fā)安全產(chǎn)品方面與ISO的行業(yè)標準保持一致。設計上的安全性是內(nèi)置的,而且有制衡機制,包括滲透測試和紅色團隊。”
 
數(shù)學家和數(shù)據(jù)科學家在編寫AI和ML算法代碼時通常不擔心潛在的漏洞。當企業(yè)構建AI系統(tǒng)時,他們會借鑒現(xiàn)有的開源算法,使用商業(yè)的“黑匣子”AI系統(tǒng),或者從零開始構建自己的AI系統(tǒng)。
 
對于開放源碼,攻擊者有可能嵌入惡意代碼,或者代碼包含漏洞或易受攻擊的依賴項。專有商業(yè)系統(tǒng)還使用開放源代碼,以及企業(yè)客戶通常無法查看的新代碼。
 
逆向攻擊是一個主要威脅
 
AI和ML系統(tǒng)通常是由非安全工程師創(chuàng)建的開源庫和新編寫的代碼的組合。此外,不存在用于編寫安全AI算法的標準最佳實踐??紤]到安全專家和數(shù)據(jù)科學家的短缺,這兩方面的專家供應更少。
 
AI和ML算法是最大的潛在風險之一,也是博思艾倫•漢密爾頓(Booz Allen Hamilton)的Raff最擔心的長期威脅之一,其有可能將訓練數(shù)據(jù)泄露給攻擊者。他表示:“有一些逆向攻擊,可以讓人工智能模型向你提供關于它自身以及它所接受的訓練的信息。如果它是根據(jù)PII數(shù)據(jù)進行訓練的,你就可以讓模型向你泄露這些信息。實際的PII可能會暴露出來。”
 
Raff說,這是一個被積極研究的領域,也是一個巨大的潛在痛點。有些工具可以保護訓練數(shù)據(jù)免受逆向攻擊,但它們太昂貴了。他表示:“我們知道如何阻止這種威脅,但這樣做會使培訓模型的成本增加100倍,這并不夸張,所以沒人會這么做。”
 
你不能確保你不能解釋的東西安全
 
另一個研究領域是可解釋性。今天,許多AI和ML系統(tǒng),包括許多主要網(wǎng)絡安全供應商提供的AI和ML支持的工具,都是“黑匣子”系統(tǒng)。YL Ventures的CISO Sounil Yu表示:“供應商沒有在其中建立可解釋性。在安全方面,能夠解釋所發(fā)生的事情是一個基本的組成部分。如果我不能解釋為什么會發(fā)生這種情況,我怎么能補救呢?“。
 
對于構建自己的AI或ML系統(tǒng)的公司來說,當出現(xiàn)問題時,他們可以回到訓練數(shù)據(jù)或使用的算法來解決問題。Yu指出,如果你是從別人那里構建的,你根本不知道訓練數(shù)據(jù)是什么。
 
需要保護的不僅僅是算法
 
人工智能系統(tǒng)不僅僅是一個自然語言處理引擎,或者僅僅是一個分類算法,或者僅僅是一個神經(jīng)網(wǎng)絡。即使這些部分是完全安全的,系統(tǒng)仍然必須與用戶和后端平臺交互。
 
系統(tǒng)是否使用強身份驗證和最低權限原則?到后端數(shù)據(jù)庫的連接是否安全?與第三方數(shù)據(jù)源的連接情況如何?用戶界面對注入攻擊是否有彈性?
 
另一個與人相關的不安全感來源是人工智能和機器學習項目獨有的:數(shù)據(jù)科學家。奧托特的阿巴蒂科表示,優(yōu)秀的數(shù)據(jù)科學家對數(shù)據(jù)進行實驗,得出有洞察力的模型。然而,當涉及到數(shù)據(jù)安全時,實驗可能會導致危險的行為。使用完數(shù)據(jù)后,他們可能會傾向于將數(shù)據(jù)移動到不安全的位置或刪除樣本數(shù)據(jù)集。Othot在早期就投資于獲得SOC II認證,這些控制有助于在整個公司實施強有力的數(shù)據(jù)保護實踐,包括在移動或刪除數(shù)據(jù)時。
 
人工智能機構Urvin AI的產(chǎn)品經(jīng)理、國際非營利性安全研究組織ISECOM的聯(lián)合創(chuàng)始人彼得•赫爾佐格(Peter Herzog)表示:“事實是,所有地方的大多數(shù)人工智能模型中最大的風險并不在人工智能中,問題出在人身上。沒有安全問題的人工智能模型幾乎沒有,因為人們決定如何訓練他們,人們決定包括什么數(shù)據(jù),人們決定他們想要預測和預測什么,以及人們決定暴露多少信息。”
 
另一個特定于AI和ML系統(tǒng)的安全風險是數(shù)據(jù)中毒,即攻擊者將信息輸入系統(tǒng),迫使系統(tǒng)做出不準確的預測。例如,攻擊者可能會通過向系統(tǒng)提供具有類似惡意軟件指示器的合法軟件示例來欺騙系統(tǒng),使其認為惡意軟件是安全的。
 
拉夫說:“這是大多數(shù)企業(yè)高度關注的問題。目前,我沒有意識到任何人工智能系統(tǒng)在現(xiàn)實生活中受到攻擊。從長遠來看,這是一個真正的威脅,但現(xiàn)在攻擊者用來逃避殺毒軟件的經(jīng)典工具仍然有效,所以他們不需要變得更花哨。”
 
避免偏差和模型漂移
 
當AI和ML系統(tǒng)用于企業(yè)安全時,例如,用于用戶行為分析、監(jiān)控網(wǎng)絡流量或檢查數(shù)據(jù)泄露,偏差和模型漂移可能會產(chǎn)生潛在風險。很快過時的訓練數(shù)據(jù)集可能會使組織變得脆弱,特別是在越來越依賴人工智能進行防御的情況下。企業(yè)需要不斷更新模型,讓更新模型成為一件持續(xù)的事情。
 
在某些情況下,訓練數(shù)據(jù)可以是自動的。例如,調整模型以適應不斷變化的天氣模式或供應鏈交付時間表,可以幫助使其隨著時間的推移變得更加可靠。當信息源涉及惡意行為者時,則需要仔細管理訓練數(shù)據(jù)集,以避免中毒和操縱。
 
企業(yè)已經(jīng)在處理造成道德問題的算法,例如當面部識別或招聘平臺歧視女性或少數(shù)族裔時。當偏見悄悄滲透到算法中時,它還可能造成合規(guī)問題,或者,在自動駕駛汽車和醫(yī)療應用的情況下,可能會導致人員死亡。
 
就像算法可以在預測中注入偏差一樣,它們也可以用來控制偏差。例如,Othot幫助大學實現(xiàn)優(yōu)化班級規(guī)?;驅崿F(xiàn)財務目標。Othot的Abbatico說,在沒有適當約束的情況下創(chuàng)建模型很容易造成偏見。“對偏見進行審查需要多花精力。添加與多樣性相關的目標有助于建模理解目標,并有助于抵消偏見,如果不將多樣性目標作為約束因素包括在內(nèi),偏見則很容易被納入。”
 
人工智能的未來在云端
 
AI和ML系統(tǒng)需要大量的數(shù)據(jù)、復雜的算法和強大的處理器,這些處理器可以在需要時進行擴展。所有主要的云供應商都在爭先恐后地提供數(shù)據(jù)科學平臺,這些平臺將所有東西都放在一個方便的地方。這意味著數(shù)據(jù)科學家不需要等待IT為他們配置服務器。他們只需上網(wǎng),填寫幾張表格,就可以開業(yè)了。
 
根據(jù)德勤的AI調查,93%的企業(yè)正在使用某種形式的基于云的AI。德勤的Loucks說:“這讓我們更容易上手。”然后,這些項目會變成運營系統(tǒng),隨著規(guī)模的擴大,配置問題會成倍增加。有了最新的服務,集中化、自動化的配置和安全管理儀表盤可能不可用,公司必須自己編寫或等待供應商加快步伐填補空白。
 
當使用這些系統(tǒng)的人是公民數(shù)據(jù)科學家或理論研究人員,而他們在安全方面沒有很強的背景時,這可能是一個問題。此外,供應商歷來都是先推出新功能,然后再推出安全功能。當系統(tǒng)被快速部署,然后擴展得更快時,這可能會是一個問題。我們已經(jīng)在物聯(lián)網(wǎng)設備、云存儲和容器上看到了這種情況。
 
Raff說,人工智能平臺供應商越來越意識到這一威脅,并從錯誤中吸取了教訓。他說:“我看到,考慮到歷史上的‘安全放在最后’的心態(tài),納入安全內(nèi)容的計劃比我們原本預期的要積極得多。ML社區(qū)對此更為關注,延遲時間可能會更短。”
 
德勤(Deloitte)AI聯(lián)席主管Irfan Saif對此表示贊同,特別是在涉及到支持大型企業(yè)AI工作負載的主要云平臺時。就網(wǎng)絡安全能力的演變而言,它們可能比之前的技術更成熟。
 
人工智能項目安全檢查清單
 
以下這些幫助確保人工智能項目安全的清單摘自德勤的《企業(yè)中的人工智能狀況》(第3版):
 
• 保存所有人工智能實施的正式清單
• 使人工智能風險管理與更廣泛的風險管理工作保持一致
• 有一名高管負責與人工智能相關的風險
• 進行內(nèi)部審計和測試
• 利用外部供應商進行獨立審計和測試
• 培訓從業(yè)者如何認識和解決圍繞人工智能的倫理問題
• 與外部各方合作,制定合理的人工智能道德規(guī)范
• 確保人工智能供應商提供不偏不倚的系統(tǒng)
• 制定指導人工智能倫理的政策或委員會
 
版權聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權利。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號