11月9日消息據(jù)外媒(opensources.info)報道,機(jī)器學(xué)習(xí)的進(jìn)步讓人們能夠以更方便的方式來訓(xùn)練安全系統(tǒng)以應(yīng)對不斷變化的安全形勢。
近段時間,機(jī)器學(xué)習(xí)和人工智能受到越來越多的關(guān)注。新技術(shù)帶來的諸多可能讓人們興奮不已。
一個事物一旦被貼上機(jī)器學(xué)習(xí)的標(biāo)簽,再想撕下來就難了。就像現(xiàn)在幾乎所有基于網(wǎng)絡(luò)發(fā)生的事情都能跟“云計(jì)算”扯上關(guān)系一樣,未來“人工智能”這個詞可能會跟“電腦”形影不離。
“大熱之下也有些夸張的成分,”普華永道(PricewaterhouseCoopers)分析師Anand Rao說。“人們開始討論AI變得超級聰明進(jìn)而取代人類等等。”
在使用計(jì)算機(jī)的過程中,判斷新下載的文件或軟件是否含有惡意代碼是最常見的安全情形。通常的識別方法是將程序的數(shù)字簽名與已知的惡意軟件進(jìn)行對比,以辨別安全與否。
這種基本的識別手段有其缺點(diǎn):它依賴于惡意軟件數(shù)字特征庫的不斷隨時更新來保證識別能力。一旦更新落后或識別不及時,后果令人堪憂。一些特征不明顯的惡意軟件經(jīng)??梢暂p易蒙混過關(guān)。
一家名為Deep Instinct的新創(chuàng)企試圖使用深度學(xué)習(xí)技術(shù)來彌補(bǔ)此中不足。公司團(tuán)隊(duì)利用近10億個已知惡意軟件樣本對其深度學(xué)習(xí)系統(tǒng)進(jìn)行訓(xùn)練。
公司CTO Eli David 說:“深度學(xué)習(xí)改變了很多領(lǐng)域。計(jì)算機(jī)視覺每年增長20%~30%,此外還有語音識別。于是我們想為什么深度學(xué)習(xí)不能應(yīng)用到網(wǎng)絡(luò)安全領(lǐng)域呢?”
他認(rèn)為基于概率大機(jī)器學(xué)習(xí)系統(tǒng)十分有限,盡管非常多的因素可以被識別和評估,與此同時那些太過微小的因子遭到忽略。
“如此你白白丟掉了絕大一部分?jǐn)?shù)據(jù)。”他說。
作為糾正,Deep Instinct 實(shí)驗(yàn)室中無一遺漏地使用目前已知的所有惡意軟件樣本來訓(xùn)練其深度學(xué)習(xí)系統(tǒng)。整個過程耗時一整天。而且使用到高性能圖形處理器來進(jìn)行對數(shù)據(jù)的分析。
訓(xùn)練產(chǎn)生的系統(tǒng)大小約有一千兆字節(jié),隨后公司將至精簡至二十兆字節(jié)。如此該系統(tǒng)可以被安裝到任何端點(diǎn)設(shè)備上,包括移動設(shè)備。即使在最慢的機(jī)器上,它也能在幾毫秒內(nèi)完成對未知程序安全性的識別。
“檢測一兆的數(shù)據(jù)耗時不過一毫秒。” David 說。“我們在實(shí)驗(yàn)室中包辦了所有復(fù)雜的準(zhǔn)備工作,用戶的使用成本非常簡便。”
Deep Instinct 每三到四個月更新一次惡意軟件樣本庫,新的更新隨即會被部署到正在運(yùn)行的設(shè)備上。David 稱,深度學(xué)習(xí)非常適合應(yīng)對捉摸不定的變化。即使樣本庫更新延遲,該系統(tǒng)仍然有能力檢測新的文件。
每天不斷出現(xiàn)的新型惡意軟件大多都是在舊有惡意軟件上做細(xì)小改變。“即使是最有威脅性的新惡意軟件,其80%仍然是舊的。傳統(tǒng)檢測方法對這些喬裝素手無策,但深度學(xué)習(xí)能夠很容易地檢測它們。”
David 稱其公司正在同獨(dú)立的測試實(shí)驗(yàn)室合作量化系統(tǒng)的檢測能力。早期同財(cái)富500強(qiáng)客戶的測試顯示,該系統(tǒng)檢測成功率比現(xiàn)有解決方案高出20%~30%。
“最近我們在美國一家大銀行做了100,000個文件的對比檢測?,F(xiàn)有的解決方案在測試的當(dāng)天早上更新了樣本庫,而我們的樣本庫數(shù)據(jù)還是兩個月以前的。盡如此,我們的檢測成功率達(dá)到了99.9%,而對方只有40%。”
找出原因
最新的深度學(xué)習(xí)系統(tǒng)受人指責(zé)地一點(diǎn)是,它常常能給出結(jié)果,但卻不一定能夠解釋該結(jié)果究竟如何產(chǎn)生。
對此,大數(shù)據(jù)分析服務(wù)公司 Nutonian 使用名叫 Eureqa 的 AI 引擎來嘗試解釋結(jié)果產(chǎn)生的過程。
公司創(chuàng)始人和 CTO Michael Schmidt 表示, Eureqa 能像牛頓發(fā)現(xiàn)物理學(xué)中的萬有引力一樣,用最優(yōu)雅最簡單的方式來闡述事情原委及其中關(guān)系。
公司將 Eureqa 免費(fèi)提供給研究人員使用,它已經(jīng)間接幫助后者在超過500本雜志出版物中發(fā)表研究成果。在醫(yī)學(xué)應(yīng)用中,它可以幫助診斷諸如黃斑變性和闌尾炎之類的疾病。該引擎在網(wǎng)絡(luò)安全領(lǐng)域也有助益。網(wǎng)絡(luò)安全中,最重要的便是識別攻擊的類型和手段,而 Eureqa 能夠自動完成這個類型檢測。
客戶將數(shù)據(jù)上傳到云端,服務(wù)器在一個小時之后就會傳回結(jié)果。“我們現(xiàn)已能夠在幾分鐘內(nèi)重現(xiàn)過去需要幾個月甚至幾年才能完成的結(jié)果。”Schmidt 說。
本地與全局相結(jié)合
網(wǎng)絡(luò)安全形勢瞬息萬變,及時的更新對任何類型的機(jī)器學(xué)習(xí)系統(tǒng)來說都至關(guān)重要。
如果沒有更新,再先進(jìn)的系統(tǒng)也會過時。人們總不斷弄出新的東西:員工打造新產(chǎn)品,供應(yīng)商推出新程序,消費(fèi)者購買新商品。當(dāng)然,黑客也會不斷編寫出新的惡意軟件來繞過現(xiàn)有的檢測手段。
在下一次更新之前,總有漏洞存在。
別有企圖的程序員常常使用安全軟件來操練他們的攻擊手段,一旦找到有效的漏洞,那么這些安全軟件就變的形同虛設(shè)。糟糕的情況直到封堵該漏洞的更新出現(xiàn)才會結(jié)束。
“你可以使用本地模式(local patterns)、同行模式(peer patterns)和行業(yè)模式(industry-wide patterns),以不同的更新速度更新它們。”管理網(wǎng)絡(luò)公司 Masergy Communications 的首席科學(xué)家 Mike Stute 說。
Masergy 使用一定數(shù)量的全局檢測來尋找發(fā)生可疑事件的可能性,然后將其與本地指標(biāo)相結(jié)合。全局系統(tǒng)只能檢測到有限的數(shù)據(jù),科學(xué)家們至著眼于最常見的特征。
額外的局部焦點(diǎn)允許更多的輸入。Stute 稱:“在本地模型中,我們不必將它們壓縮到更小的功能集。”如此一來兼顧唯一性和準(zhǔn)確性。
本地與全局相結(jié)合的策略也為企業(yè)咨詢公司 Acuity Solutions 所使用,其 BluVector 便使用機(jī)器學(xué)習(xí)來檢測網(wǎng)絡(luò)威脅。BluVector 習(xí)得正常程序應(yīng)有的樣子,善于從惡意程序與正常程序的代碼差別中發(fā)現(xiàn)潛在威脅。
而且 BluVector 還會從新情況中學(xué)習(xí),不斷升級自身的鑒別能力。其主引擎與全球數(shù)據(jù)每季度同步一次,但不會涉嫌上傳客戶信息。
全局與本地的有機(jī)結(jié)合使得每個客戶的 BluVector 部署都略有不同。即使攻擊者找出了系統(tǒng)的漏洞,該攻擊手段也未必對定制化之后的系統(tǒng)有效。
“這是一種移動防御策略,這些技術(shù)深度定制于你的環(huán)境而無法逆向破解。”Acuity 首席執(zhí)行官Kris Lovejoy 說。