避開(kāi)機(jī)器學(xué)習(xí)中的陷阱 數(shù)據(jù)比算法更重要

責(zé)任編輯:editor005

作者:Alfred.N

2016-12-21 15:02:21

摘自:安全牛

用戶行為分析、網(wǎng)絡(luò)威脅檢測(cè),一股新的浪潮正在持續(xù)發(fā)酵。如果你的分析產(chǎn)品有特定的數(shù)據(jù)或數(shù)據(jù)集無(wú)法獲取,廠商應(yīng)該告知你決策所用的信息完整性和營(yíng)銷(xiāo)材料上存在差異。

用戶行為分析、網(wǎng)絡(luò)威脅檢測(cè),一股新的浪潮正在持續(xù)發(fā)酵。安全數(shù)據(jù)分析被用于掌握情況、發(fā)現(xiàn)問(wèn)題和預(yù)測(cè)風(fēng)險(xiǎn),并帶來(lái)了潛力不可限量的營(yíng)銷(xiāo)前景。理想的情況是從攻擊中提取出機(jī)器學(xué)習(xí)程序所支持的數(shù)據(jù),并把它交給算法,然后一切安全狀況盡在掌握。

作為信息安全工具,“機(jī)器學(xué)習(xí)”的噱頭顯然掩蓋了數(shù)據(jù)科學(xué)不那么吸引人但卻本質(zhì)的一面:數(shù)據(jù)的收集和準(zhǔn)備(后者占據(jù)了數(shù)據(jù)科學(xué)家約80%的時(shí)間)。事實(shí)是,機(jī)器學(xué)習(xí)和其他算法需要應(yīng)用于適當(dāng)、干凈、容易理解的數(shù)據(jù)來(lái)獲取有效的結(jié)果。

安全市場(chǎng)存在這種誤導(dǎo)性的風(fēng)向不足為奇,但是當(dāng)這種情況出現(xiàn)在安全領(lǐng)域,就可能帶來(lái)有害的影響。信息安全有如此多復(fù)雜而不同的數(shù)據(jù)集,并通過(guò)自動(dòng)化分析為不同的利益群體(比如首席信息安全官,安全運(yùn)維人員,IT運(yùn)維人員,風(fēng)險(xiǎn)委員會(huì))拼接和呈現(xiàn)。

如果機(jī)器學(xué)習(xí)產(chǎn)品夸下??趨s成果有限,那么對(duì)數(shù)據(jù)一向執(zhí)懷疑態(tài)度的人會(huì)咬住這一點(diǎn)不放,甚至包括那些決定安全項(xiàng)目預(yù)算的人。只要搞砸一次,他們就不可能再次購(gòu)買(mǎi)同數(shù)據(jù)驅(qū)動(dòng)的方案。

如果你要購(gòu)買(mǎi)一個(gè)宣稱能“點(diǎn)數(shù)據(jù)成金”的分析/度量工具,你應(yīng)先考慮一下幾條關(guān)鍵信息:

1. 該工具需要那些數(shù)據(jù)來(lái)得到其所所承諾的結(jié)果?

有些分析產(chǎn)品如果沒(méi)有按照特定方式從系統(tǒng)獲取的數(shù)據(jù),就根本無(wú)法工作。舉例而言,如果你想購(gòu)買(mǎi)的平臺(tái)使用web代理數(shù)據(jù),你給它的登錄許可帶來(lái)的風(fēng)險(xiǎn)和你為了安全所做的種種措施該如何權(quán)衡呢?怎樣滿足信息安全增長(zhǎng)的登錄需求?怎樣滿足其數(shù)據(jù)存儲(chǔ)需求?

為了獲取你所要的信息,你需要更多來(lái)自于全網(wǎng)的數(shù)據(jù)。否則,你決策時(shí)可能僅僅只會(huì)基于所看見(jiàn)的危險(xiǎn),而非不能忽視的所有重要風(fēng)險(xiǎn)。

如果你的分析產(chǎn)品有特定的數(shù)據(jù)或數(shù)據(jù)集無(wú)法獲取,廠商應(yīng)該告知你決策所用的信息完整性和營(yíng)銷(xiāo)材料上存在差異。

此外,你還要考慮為了獲取不同的數(shù)據(jù)來(lái)源需要做的種種瑣碎工作。這些數(shù)據(jù)歸誰(shuí)所有:信息安全廠商還是第三方(如基礎(chǔ)設(shè)施或外部供應(yīng)商)?你能得到它嗎,又以何種格式呢——數(shù)據(jù)被修改了么?這至關(guān)重要,因?yàn)槿绻@種情況發(fā)生,這會(huì)影響可能的分析結(jié)果。

你獲取數(shù)據(jù)的速度有多快,你又能在數(shù)據(jù)創(chuàng)建后多久才能獲取它?是僅僅通過(guò)一個(gè)API從云中獲取數(shù)據(jù)(比如脆弱性數(shù)據(jù)),還是網(wǎng)絡(luò)團(tuán)隊(duì)不得不通過(guò)你的基礎(chǔ)層來(lái)轉(zhuǎn)存日志(比如活動(dòng)目錄事件日志)?數(shù)據(jù)生成和獲取之間的延遲可能會(huì)影響你及時(shí)采取行動(dòng)的能力。

2. 產(chǎn)品安裝后需要收集多久數(shù)據(jù)以實(shí)現(xiàn)承諾的準(zhǔn)確性和有效性水平,另一方面,在這之前的什么時(shí)候,結(jié)果是可用的(哪怕達(dá)不到理想水平)?

機(jī)器學(xué)習(xí)模型需要被訓(xùn)練。例如,對(duì)于一個(gè)用于尋找網(wǎng)絡(luò)異常行為的威脅檢測(cè)工具,必須先提供涵蓋所有近期常見(jiàn)的網(wǎng)絡(luò)行為的數(shù)據(jù)。如果模型有更多的數(shù)據(jù),它將更擅長(zhǎng)發(fā)現(xiàn)真正不尋常的行為。當(dāng)使用該工具解決特定時(shí)間的問(wèn)題時(shí),廠商應(yīng)該及時(shí)提供給你有關(guān)模型訓(xùn)練的所有具體說(shuō)明細(xì)節(jié)。

3. 分析工具輸出的數(shù)據(jù)以何種方式呈現(xiàn)?要把這些輸出變成可操作的“結(jié)果”,你的團(tuán)隊(duì)需要什么后續(xù)工作?

如果你的新威脅檢測(cè)方案每天都產(chǎn)生1500份需要處理的警報(bào),你將不得不去招募更多負(fù)責(zé)安全運(yùn)維的員工。此外,你的服務(wù)供應(yīng)商能信誓旦旦地表示,這些警報(bào)里有多少是真實(shí)的呢?

機(jī)器學(xué)習(xí)模型將始終返回“虛假的威脅”,所以務(wù)必向供應(yīng)商核實(shí)算法的精確程度(真正的威脅占所有威脅數(shù)目的比例)和為此必須付出的調(diào)試成本。如果精度很低,您的團(tuán)隊(duì)將不得不面對(duì)大量的噪聲成本。如果噪聲過(guò)高,而供應(yīng)商的分析師仍需要大量的調(diào)試才能達(dá)到這一水平,你最好不要對(duì)他們的能力抱有太大信息。

即使你需要從七個(gè)難以獲取、網(wǎng)際傳輸困難的來(lái)源獲取數(shù)據(jù),這可能并不重要。即使你不得不等九個(gè)月讓機(jī)器受訓(xùn)才能知道你的投資的回報(bào)比是否理想,這可能也不是什么大問(wèn)題。但是如果你不知道上述這些可能,那才是真的麻煩。因?yàn)檫@些因素將影響你對(duì)時(shí)間、人力和金錢(qián)的投入方式,以及你設(shè)定對(duì)成果的心理預(yù)期的方式。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)