2013,一群英國情報(bào)人員注意到一些奇怪的事情。雖然大多數(shù)保護(hù)數(shù)字基礎(chǔ)設(shè)施的努力都集中在阻止壞人進(jìn)入,但很少有人關(guān)注反面:阻止他們泄露信息?;谶@個(gè)想法,該集團(tuán)成立了一個(gè)新的網(wǎng)絡(luò)安全公司,稱為Darktrace。
該公司與劍橋大學(xué)的數(shù)學(xué)家合作,開發(fā)了一種利用機(jī)器學(xué)習(xí)來捕捉內(nèi)部漏洞的工具。然而,它們不需要在攻擊的歷史實(shí)例上訓(xùn)練算法,而是需要系統(tǒng)識別異常行為新實(shí)例的方法。他們轉(zhuǎn)向無監(jiān)督學(xué)習(xí),這是一種基于一種罕見的機(jī)器學(xué)習(xí)算法的技術(shù),它不需要人類指定尋找什么。
Darktrace已經(jīng)把注意力放在一種被感染的裝置上,表現(xiàn)出反常的行為。“這非常像人體自身的免疫系統(tǒng),”該公司的CO-CEO NicoleEagan說。盡管它是復(fù)雜的,但它具有自我和非自我的內(nèi)在感覺。當(dāng)它發(fā)現(xiàn)不屬于自己的東西時(shí),它會有極其精確和快速的反應(yīng)。
絕大多數(shù)機(jī)器學(xué)習(xí)應(yīng)用依賴于監(jiān)督學(xué)習(xí)。這包括給機(jī)器提供大量仔細(xì)標(biāo)記的數(shù)據(jù),以訓(xùn)練它識別一個(gè)狹義的模式。說你想讓你的機(jī)器識別黃金獵犬。你喂它幾百或幾千張金毛獵犬的照片,以及那些不是金毛獵犬的東西,同時(shí)明確地告訴它哪些是金毛獵犬。最終,你會發(fā)現(xiàn)一個(gè)相當(dāng)不錯(cuò)的金毛獵犬識別機(jī)器。
在網(wǎng)絡(luò)安全中,有監(jiān)督的學(xué)習(xí)效果很好。你訓(xùn)練一臺機(jī)器,面對你的系統(tǒng)以前面臨的各種威脅,并且無情地追逐它們。
但有兩個(gè)主要問題。一方面,它只適用于已知的威脅;未知的威脅仍然潛藏在雷達(dá)下。另一方面,監(jiān)督學(xué)習(xí)算法最適合于平衡數(shù)據(jù)集——換言之,那些具有相同數(shù)量的示例,說明它在尋找什么,以及它可以忽略什么。網(wǎng)絡(luò)安全數(shù)據(jù)高度不平衡:很少有威脅行為的例子埋藏在絕大多數(shù)正常行為中。
一個(gè)特定子網(wǎng)絡(luò)內(nèi)所有連接的可視化。幸運(yùn)的是,在監(jiān)督學(xué)習(xí)失敗的情況下,無人監(jiān)督的學(xué)習(xí)勝過了。后者可以查看大量未標(biāo)記的數(shù)據(jù),并找到不遵循典型模式的片段。因此,它可以面對系統(tǒng)從未見過的威脅,并且需要很少的反常數(shù)據(jù)點(diǎn)來這樣做。
當(dāng)Darktrace部署其軟件時(shí),它會在客戶端的網(wǎng)絡(luò)周圍建立物理和數(shù)字傳感器來繪制其活動(dòng)。這些原始數(shù)據(jù)被傳送到60多個(gè)不同的無監(jiān)督學(xué)習(xí)算法,這些算法相互競爭以發(fā)現(xiàn)異常行為。
然后,這些算法將它們的輸出吐出到另一個(gè)主算法中,該主算法使用各種統(tǒng)計(jì)方法來確定60個(gè)中的哪些要聽,哪些要忽略。所有這些復(fù)雜性被封裝成一個(gè)最終的可視化,允許人類操作員快速地查看和響應(yīng)可能的違規(guī)行為。當(dāng)人類下一步該做什么時(shí),系統(tǒng)就可以通過隔離被感染設(shè)備的所有外部通信來隔離破裂直到解決。
然而,無人監(jiān)督的學(xué)習(xí)并不是一顆銀彈。隨著攻擊者變得越來越復(fù)雜,他們在愚弄機(jī)器,無論他們使用什么類型的機(jī)器學(xué)習(xí)方面都變得更好。有一個(gè)貓和老鼠的游戲,攻擊者可以嘗試改變他們的行為,Dawn Song說:“網(wǎng)絡(luò)安全和機(jī)器學(xué)習(xí)專家在加州大學(xué)伯克利分校。
作為回應(yīng),網(wǎng)絡(luò)安全界已經(jīng)轉(zhuǎn)向了積極的方法——“更好的安全架構(gòu)和原則,以便系統(tǒng)通過構(gòu)建更加安全,”她說。但要徹底根除所有違規(guī)和欺詐行為還有很長的路要走。畢竟,她補(bǔ)充道,“整個(gè)系統(tǒng)的安全性取決于它最薄弱的環(huán)節(jié)。”
注: 現(xiàn)實(shí)生活中常常會有這樣的問題:缺乏足夠的先驗(yàn)知識,因此難以人工標(biāo)注類別或進(jìn)行人工類別標(biāo)注的成本太高。很自然地,我們希望計(jì)算機(jī)能代我們完成這些工作,或至少提供一些幫助。根據(jù)類別未知(沒有被標(biāo)記)的訓(xùn)練樣本解決模式識別中的各種問題,稱之為無監(jiān)督學(xué)習(xí)。