他表示,全球在線欺詐的損失成本如今已高達(dá)250億美元,但是實(shí)際價值至少要高出20倍,因?yàn)榫W(wǎng)上交易者和金融機(jī)構(gòu)經(jīng)常會誤以為欺詐而拒絕為合法客戶服務(wù),這是欺詐行為造成的結(jié)果。這種失誤意味著在線商務(wù)的收入損失至少5000億美元,更不用說更加寶貴的客戶信任。
在線欺詐檢測的獨(dú)特特征包括可獲得具有已知結(jié)果的大量多樣數(shù)據(jù)集、重復(fù)模式以及需要快速決策的需求,使其成為機(jī)器學(xué)習(xí)(ML)的良好研究對象。實(shí)際上,在機(jī)器學(xué)習(xí)有望解決的許多問題中,在線欺詐檢測已成為最早的成功案例之一。
通過一流的機(jī)器學(xué)習(xí)團(tuán)隊(duì)與許多全球貿(mào)易商和支付提供商的合作,Arjun為產(chǎn)品經(jīng)理和業(yè)務(wù)負(fù)責(zé)人提供了以下9條切實(shí)可行的原則。
獲得正確的欺詐信號和標(biāo)簽數(shù)據(jù)對于企業(yè)來說是最具挑戰(zhàn)性的任務(wù),但是如果做得正確,將為企業(yè)帶來顯著優(yōu)勢。
原則1:模型只與測試和驗(yàn)證集中的標(biāo)簽一樣好
企業(yè)需要制定明確的欺詐定義,為其數(shù)據(jù)貼上標(biāo)簽,并確保每個標(biāo)簽都清晰地反映了既定的定義。機(jī)器學(xué)習(xí)方法通????梢匀萑逃?xùn)練集中的隨機(jī)標(biāo)簽錯誤,但很容易受到系統(tǒng)錯誤的影響。例如,客戶將合法交易標(biāo)記為欺詐的“友善欺詐”通常是隨機(jī)的,但其他行為(例如人工代理的標(biāo)簽)可能是系統(tǒng)的。
與訓(xùn)練不同,團(tuán)隊(duì)必須嘗試甚至修復(fù)測試和驗(yàn)證集中隨機(jī)的標(biāo)簽,以使它們足夠可靠以評估模型的質(zhì)量。
原則2:獲得獨(dú)特功能將使欺詐者難以破解企業(yè)的模式
欺詐團(tuán)隊(duì)之間也在展開競爭,他們在重塑客戶身份方面越來越成熟。捕獲這些欺詐者的最佳方法是從多個供應(yīng)商和合作伙伴收集獨(dú)特的數(shù)據(jù),并找到識別數(shù)字身份背后真正身份的獨(dú)特屬性。利用所有有助于風(fēng)險(xiǎn)信號傳遞的數(shù)據(jù),其中包括設(shè)備、身份、個人和網(wǎng)絡(luò)行為模式。
原則3:通過構(gòu)建集中式數(shù)據(jù)存儲庫并確保其安全性,使數(shù)據(jù)成為真正的資產(chǎn)
集中式數(shù)據(jù)存儲庫將確保數(shù)據(jù)科學(xué)團(tuán)隊(duì)知道可用的資源并可以利用它。團(tuán)隊(duì)還必須致力于確保客戶數(shù)據(jù)的安全。遵循與歐盟通用數(shù)據(jù)保護(hù)法(GDPR)一致的原則,例如收集組織將用于滿足客戶需求的數(shù)據(jù),僅將其存儲到防止欺詐所需的時間為止,并為客戶提供對其數(shù)據(jù)的完全控制權(quán)。為了贏得客戶的信任,企業(yè)需要真正相信這些原則。
將防止欺詐的機(jī)器學(xué)習(xí)系統(tǒng)視為人類的替代品是很誘人的。但根據(jù)經(jīng)驗(yàn),一流企業(yè)將繼續(xù)讓工作人員參與其中。
原則4:員工水平的表現(xiàn)仍然是黃金標(biāo)準(zhǔn),將幫助團(tuán)隊(duì)調(diào)整模型
經(jīng)驗(yàn)豐富的人工審核團(tuán)隊(duì)在人員層面的表現(xiàn)是對最佳可實(shí)現(xiàn)模型表現(xiàn)的合理估計(jì)。因此,模型訓(xùn)練錯誤與人為錯誤之間的巨大差距表明團(tuán)隊(duì)需要減少模型偏差。
原則5:有效的機(jī)器學(xué)習(xí)系統(tǒng)旨在與人類良好協(xié)作
良好的機(jī)器學(xué)習(xí)系統(tǒng)知道機(jī)器和人類的功能完全不同,因此可以利用這些差異。人類可以處理可能沒有足夠歷史數(shù)據(jù)或者需要重大判斷力的情況。例如,一家企業(yè)可能正在從新的地理位置獲得訂單或表現(xiàn)出獨(dú)特的行為模式。在將結(jié)果推廣到新的機(jī)器學(xué)習(xí)模型之前,讓人類參與這些案例是值得的。
使用雙向反饋來改善機(jī)器和人類的方面。人工反饋可改善模型偏差,并增強(qiáng)模型的可解釋性。同時,機(jī)器學(xué)習(xí)模型可以提供更多信息,使人類的任務(wù)更簡單,甚至有助于提高人類的技能。
原則6:發(fā)現(xiàn)并糾正模型中的人為偏見是團(tuán)隊(duì)的責(zé)任
機(jī)器學(xué)習(xí)系統(tǒng)的最大風(fēng)險(xiǎn)之一是,通過設(shè)計(jì),它們利用歷史數(shù)據(jù)進(jìn)行推斷。人們通常會標(biāo)記數(shù)據(jù)。數(shù)據(jù)會反映出人類的偏見也就不足為奇了,團(tuán)隊(duì)有責(zé)任糾正這些偏見。
第一步是找出潛在的偏見來源,并在數(shù)據(jù)中明確尋找它們。驗(yàn)證和測試數(shù)據(jù)集是否代表真實(shí)分布(即沒有樣本偏差)?企業(yè)的團(tuán)隊(duì)是否在測試集中包括記錄,以檢查模型是否存在系統(tǒng)性偏見?從更簡單、更透明、可解釋且無偏見的模型開始,然后逐步過渡到復(fù)雜的模型。
機(jī)器學(xué)習(xí)是預(yù)防欺詐的強(qiáng)大工具,但如果操作不當(dāng),則很容易建立起與目標(biāo)相反的模型。開發(fā)組織的機(jī)器學(xué)習(xí)技術(shù)至關(guān)重要。
原則7:機(jī)器學(xué)習(xí)模型需要一致的目標(biāo)和符合總體策略的指標(biāo)
選擇一種將措施和抵消措施結(jié)??合使用的度量標(biāo)準(zhǔn),以防止在某個方向上發(fā)生過度反應(yīng)。例如,團(tuán)隊(duì)可以決定增加模型正確捕獲的欺詐部分(最大程度地提高“召回率”),同時確定該模型錯誤地將合法客戶標(biāo)記為欺詐部分的上限(上限為“誤報(bào)率”)。
最后,為了使這些數(shù)字具體化,根據(jù)拒絕良好客戶的成本和身份不明的欺詐行為成本來估計(jì)業(yè)務(wù)的成本。
原則8:開發(fā)多種模型并經(jīng)常進(jìn)行重新培訓(xùn)以與欺詐的真實(shí)世界保持一致
機(jī)器學(xué)習(xí)模型試圖模仿現(xiàn)實(shí)世界。首先,欺詐特征在不同地區(qū)和欺詐類型之間可能有很大差異。如果性能更好,則構(gòu)建特定于地理和用例的模型。其次,現(xiàn)實(shí)世界是動態(tài)的,欺詐者不斷發(fā)展其戰(zhàn)術(shù)。因此企業(yè)保持恒定的新數(shù)據(jù)流以重新訓(xùn)練模型,以確保模型輸出的質(zhì)量不會隨時間降低。
原則9:向其他具有類似欺詐特征的機(jī)器學(xué)習(xí)用例學(xué)習(xí)
團(tuán)隊(duì)在欺詐中面臨的幾乎所有機(jī)器學(xué)習(xí)建模問題在其他領(lǐng)域都有類似的解決方案。
以欺詐中類別分布不平衡為例,其中數(shù)據(jù)中幾乎所有記錄都屬于非欺詐類別。此問題類似于產(chǎn)品缺陷檢測之類的情況?;蚩紤]生產(chǎn)中的欺詐模型問題使輸出產(chǎn)生偏差,從而影響獲取更多數(shù)據(jù)以進(jìn)行持續(xù)學(xué)習(xí)的能力。其評估問題是在線廣告行業(yè)面臨的一個問題,團(tuán)隊(duì)需要找到一些想法進(jìn)行試驗(yàn)。
為了從機(jī)器學(xué)習(xí)中獲得真正的價值以進(jìn)行欺詐檢測,企業(yè)的團(tuán)隊(duì)必須將機(jī)器學(xué)習(xí)視為組織能力,它要求產(chǎn)品、工程、數(shù)據(jù)科學(xué)和隱私團(tuán)隊(duì)協(xié)同工作。企業(yè)的成功將取決于實(shí)施能夠解決實(shí)際業(yè)務(wù)問題的工作模型。企業(yè)從小處開始進(jìn)行嘗試,然后逐步增強(qiáng)自己的能力。隨著時間的推移,企業(yè)的業(yè)務(wù)將會蓬勃發(fā)展。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。