隨著互聯(lián)網(wǎng)金融的發(fā)展,傳統(tǒng)金融機(jī)構(gòu)一邊享受著金融科技帶來的效率提升和服務(wù)邊界的擴(kuò)大,另一邊黑產(chǎn)的攻擊手段也在不斷升級(jí),金融機(jī)構(gòu)遭遇的欺詐情況越來越復(fù)雜,基于知識(shí)圖譜的關(guān)聯(lián)反欺詐也應(yīng)運(yùn)而生。
風(fēng)控就是攻守雙方技術(shù)的進(jìn)化史
在互聯(lián)網(wǎng)金融發(fā)展的大趨勢(shì)之下,傳統(tǒng)金融機(jī)構(gòu)一邊享受著金融科技帶來的效率提升和服務(wù)邊界的擴(kuò)大,另一邊黑產(chǎn)也隨著科技的發(fā)展從盜號(hào)演變成了利用大規(guī)模攻擊、通過IP池等技術(shù)繞過風(fēng)控規(guī)則,金融機(jī)構(gòu)遭遇的欺詐情況越來越復(fù)雜,主要有四點(diǎn)的變化:
第一,專業(yè)化。目前的“黑產(chǎn)”團(tuán)隊(duì)已經(jīng)非常專業(yè),不僅有專業(yè)的風(fēng)控人員、專業(yè)黑客,甚至還有AI專家,因此金融機(jī)構(gòu)或者金融服務(wù)機(jī)構(gòu)如果沒有掌握更先進(jìn)的技術(shù)已經(jīng)無法在技術(shù)上獲得一個(gè)比較優(yōu)勢(shì)。
第二,產(chǎn)業(yè)化。金融欺詐已經(jīng)從單個(gè)作案發(fā)展成了團(tuán)伙作案,因此“黑產(chǎn)”團(tuán)伙需要通過大量賬號(hào)進(jìn)行大規(guī)模攻擊以期獲得更大的收益。這種方式導(dǎo)致雖然他們的欺詐模式不斷變化,但是在短時(shí)間內(nèi)會(huì)有行為慣性,也給了風(fēng)控人員抓住這種行為痕跡的可乘之機(jī)。
第三,隱蔽化。目前“黑產(chǎn)”集團(tuán)跨境犯罪已經(jīng)非常普遍,這些跨境犯罪集團(tuán)的手段更加隱蔽包括利用貓池、IP池對(duì)身份進(jìn)行洗牌,潛伏時(shí)間較長(zhǎng),交易鏈路更加復(fù)雜等,因此對(duì)數(shù)據(jù)的覆蓋范圍提出了更高的要求,同時(shí)需要風(fēng)控人員做更深層次的數(shù)據(jù)挖掘探索。
第四,突發(fā)化。因?yàn)楹谔?hào)一旦進(jìn)入征信系統(tǒng)后號(hào)碼將無法再次騙貸,因此“黑產(chǎn)”行業(yè)主要從兩種方式榨取黑號(hào)的最大價(jià)值,第一他們會(huì)用一個(gè)號(hào)碼再很短的時(shí)間內(nèi)對(duì)多個(gè)平臺(tái)進(jìn)行騙貸申請(qǐng),第二是很多賬號(hào)同一時(shí)間內(nèi)對(duì)一個(gè)漏洞進(jìn)行大規(guī)模突擊性的攻擊,這兩種突發(fā)式的攻擊要求反欺詐監(jiān)測(cè)系統(tǒng)具備高實(shí)時(shí)性的能力。
因此,回首近年來金融的發(fā)展可以看到,風(fēng)控就是攻守雙方技術(shù)的進(jìn)化史。
基于圖關(guān)系的金融解決方案
截止目前,反欺詐也經(jīng)歷了傳統(tǒng)反欺詐、基于大數(shù)據(jù)反欺詐以及現(xiàn)在的基于知識(shí)圖譜(關(guān)系網(wǎng)絡(luò))反欺詐三次進(jìn)化,其中,基于知識(shí)圖譜反欺詐依賴的底層技術(shù)就是圖數(shù)據(jù)庫(kù)技術(shù)。
上圖是美國(guó)一個(gè)老少皆知的小游戲“connect the dots”,它的玩法就是把所有線索連在一起,即可得知事件全貌。其實(shí)圖中的點(diǎn)就相當(dāng)于現(xiàn)在的很多數(shù)據(jù),在系統(tǒng)里是零散的,因此如何把這些零散的點(diǎn)按照規(guī)律快速地連接起來,就是實(shí)時(shí)圖數(shù)據(jù)庫(kù)要做的事情。
如上圖所示,點(diǎn)是用戶數(shù)據(jù),而用戶數(shù)據(jù)是圖數(shù)據(jù)庫(kù)的基礎(chǔ),因此如何遵循法律法規(guī)和監(jiān)管要求,按照用戶授權(quán)收集數(shù)據(jù)是關(guān)系網(wǎng)絡(luò)反欺詐的關(guān)鍵,本文中就不對(duì)數(shù)據(jù)采集這塊進(jìn)行展開了。除了內(nèi)部數(shù)據(jù)外,加上其他的外部數(shù)據(jù)收集之后,風(fēng)控人員就可以利用用戶的客戶社會(huì)關(guān)系、交易模式關(guān)聯(lián)、互聯(lián)網(wǎng)行為、移動(dòng)設(shè)備等數(shù)據(jù)對(duì)客戶的行為模式進(jìn)行匹配分析,最后通過反欺詐規(guī)則引擎和機(jī)器學(xué)習(xí)加以輔助,以此判斷客戶存在欺詐的可能性。
TigerGraph實(shí)時(shí)圖數(shù)據(jù)庫(kù)反欺詐應(yīng)用簡(jiǎn)介
TigerGraph實(shí)時(shí)圖數(shù)據(jù)庫(kù)的整體架構(gòu)示意圖
接下來介紹一下基于TigerGraph的反欺詐系統(tǒng)架構(gòu)。
首先,TigerGraph實(shí)時(shí)圖數(shù)據(jù)庫(kù)能夠在支付處理前識(shí)別欺詐?;趫D靈活的Schema特性,TigerGraph支持將不同來源的數(shù)據(jù)匯集,基于數(shù)據(jù)之間的關(guān)系組成類似寬表一樣的全局Graph。
其次,TigerGraph通過機(jī)器學(xué)習(xí)+圖數(shù)據(jù)庫(kù)識(shí)別欺詐,目前機(jī)器學(xué)習(xí)技術(shù)面臨著特征值不夠多、不夠有效的問題,TigerGraph圖數(shù)據(jù)庫(kù)能夠通過對(duì)用戶的關(guān)系特征進(jìn)行建模,然后基于圖數(shù)據(jù)庫(kù)進(jìn)行毫秒級(jí)實(shí)時(shí)甄別。因此,對(duì)于系統(tǒng)內(nèi)已標(biāo)記人群,通過圖數(shù)據(jù)庫(kù)能夠快速通過他的人群特征,進(jìn)行欺詐判定,而對(duì)于系統(tǒng)內(nèi)未標(biāo)記或標(biāo)記過期人群來說,TigerGraph圖數(shù)據(jù)庫(kù)在系統(tǒng)里能夠毫秒級(jí)生成百余項(xiàng)關(guān)系特征,并且基于決策樹或邏輯回歸等方式進(jìn)行分類和數(shù)據(jù)分析。
最重要的一點(diǎn)是,TigerGraph圖數(shù)據(jù)庫(kù)采用的無論是基于關(guān)系得到的特征還是基于決策樹或者是基于邏輯回歸的判斷方式都是非常好理解,這為企業(yè)關(guān)注的“可解釋的AI”提供了解決方案。
TigerGraph實(shí)時(shí)圖數(shù)據(jù)庫(kù)反洗錢應(yīng)用簡(jiǎn)介
反欺詐的例子展示了TigerGraph圖數(shù)據(jù)庫(kù)如何和機(jī)器學(xué)習(xí)結(jié)合的,接下來通過兩個(gè)反洗錢的應(yīng)用場(chǎng)景來了解TigerGraph圖數(shù)據(jù)庫(kù)的另外一個(gè)優(yōu)勢(shì)——深度鏈接分析。
第一個(gè)場(chǎng)景是利用圖數(shù)據(jù)庫(kù)在反洗錢中發(fā)現(xiàn)漏報(bào)和提高反洗錢偵測(cè)準(zhǔn)確性。比如一個(gè)反洗錢的報(bào)警,由于新用戶沒有金融交易歷史記錄,沒有先前的告警,不在高風(fēng)險(xiǎn)區(qū)域,就把這筆告警標(biāo)記為低風(fēng)險(xiǎn),但是利用圖數(shù)據(jù)庫(kù)進(jìn)行深度鏈路分析之后,會(huì)發(fā)現(xiàn)這個(gè)用戶的號(hào)碼是和別人共用的,并且曾經(jīng)有一些洗錢的預(yù)警,它的分類就從低風(fēng)險(xiǎn)變成了高風(fēng)險(xiǎn)。由此可見,欺詐者盡管在欺詐過程中將自己的一些基本特征及淺層次鏈接信息進(jìn)行了偽造,但是深層次的關(guān)系網(wǎng)絡(luò)是無法提前偽造或者需要付出極大的成本去掩飾的,基于TigerGraph可以輕易提取出深層次的特征,進(jìn)而協(xié)助企業(yè)進(jìn)行判斷。
第二個(gè)場(chǎng)景是利用圖數(shù)據(jù)庫(kù)在混合經(jīng)濟(jì)模式中追蹤反洗錢(傳統(tǒng)貨幣+加密貨幣)。比如上圖中紅框里面是已經(jīng)發(fā)現(xiàn)的兩筆可疑交易,基于這兩筆交易針對(duì)資金流向的上下游進(jìn)行深層交易追溯時(shí),去掌握它的整個(gè)洗錢網(wǎng)絡(luò),這就依靠數(shù)據(jù)庫(kù)能不能支持10層以上的深度數(shù)據(jù)鏈接查詢。目前TigerGraph也正和一些美國(guó)客戶嘗試把比特幣或其他加密貨幣的交易記錄納進(jìn)監(jiān)管,即使交易手段和交易鏈路較之過去更加復(fù)雜,然而在TigerGraph的強(qiáng)大算力下,洗錢網(wǎng)絡(luò)終將無所遁形。
大數(shù)據(jù)+圖技術(shù)應(yīng)用現(xiàn)狀
基于圖數(shù)據(jù)庫(kù)技術(shù)在這些場(chǎng)景中優(yōu)異的表現(xiàn),目前很多的企業(yè)開始對(duì)圖數(shù)據(jù)庫(kù)表示出了興趣,在這也有一些前瞻性的企業(yè)已經(jīng)從這項(xiàng)技術(shù)中受益并取得競(jìng)爭(zhēng)性優(yōu)勢(shì)。
圖技術(shù)已經(jīng)出現(xiàn)很多年了,仍然還有很多企業(yè)沒有用起來,是什么阻礙了這項(xiàng)技術(shù)的推進(jìn)呢?
首先是無法擴(kuò)展到多臺(tái)機(jī)器,剛才我們已經(jīng)提到,要想知識(shí)圖譜發(fā)揮最大效用,數(shù)據(jù)種類的豐富性和數(shù)據(jù)存儲(chǔ)年限都是非常重要的,但是之前的圖數(shù)據(jù)庫(kù)大多都是單機(jī)版,機(jī)器的配置大大限制了數(shù)據(jù)的存儲(chǔ)范圍。
舉個(gè)例子,我們的某個(gè)銀行客戶想針對(duì)反套現(xiàn)場(chǎng)景的資金回流進(jìn)行分析,即個(gè)人通過信用卡將錢刷給商家,商家再通過其他賬戶將錢打回給個(gè)人的儲(chǔ)蓄卡。在這個(gè)場(chǎng)景中需要借記卡和信用卡的數(shù)據(jù),客戶的數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗以后,僅是10個(gè)月借記卡數(shù)據(jù)+1個(gè)月信用卡數(shù)據(jù)規(guī)模仍有5個(gè)T。這樣的數(shù)據(jù)量過去的圖數(shù)據(jù)庫(kù)是無法支持的,基于TigerGraph,我們用了12臺(tái)機(jī)器的集群實(shí)現(xiàn)了本期數(shù)據(jù)的存儲(chǔ),并將計(jì)算效率從之前的3-4天得到結(jié)果縮短到1-30分鐘。他們的二期設(shè)想是想把借記卡和信用卡各13個(gè)月的數(shù)據(jù)放進(jìn)去進(jìn)行分析,場(chǎng)景才能更全面地覆蓋到套現(xiàn)群體,而這個(gè)數(shù)據(jù)規(guī)模對(duì)于TigerGraph來說也不是問題。
第二點(diǎn)就是剛才那個(gè)反洗錢的例子也看到了,分析路徑每增加一步,都可能揭示更多的鏈接和隱含的關(guān)系,實(shí)際業(yè)務(wù)需要中需要做到3-10步以上的分析,目前的圖數(shù)據(jù)庫(kù)在企業(yè)級(jí)場(chǎng)景下,2度到3度查詢時(shí)就會(huì)出現(xiàn)超時(shí)或者內(nèi)存溢出的場(chǎng)景,如此淺層的特征關(guān)系欺詐者甚至可以偽造,這樣的性能可以說對(duì)欺詐甄別的幫助很小。
最后一點(diǎn)就是我們對(duì)欺詐等場(chǎng)景是有實(shí)時(shí)性要求的,而其他數(shù)據(jù)庫(kù)難以做到亞秒級(jí)查詢并支持實(shí)時(shí)更新操作。盡管目前國(guó)家對(duì)反洗錢等場(chǎng)景的時(shí)限要求并不高(按天計(jì)),這也是由于之前的技術(shù)發(fā)展未能實(shí)現(xiàn)更迅速的計(jì)算效率而做出的妥協(xié)。理論來說金融領(lǐng)域的任何案件在時(shí)效性上必然是越快越好。目前我們給國(guó)內(nèi)某支付機(jī)構(gòu)做的反洗錢系統(tǒng),場(chǎng)景識(shí)別已經(jīng)做到了分鐘級(jí)。
這三點(diǎn)中每一點(diǎn)目前也都有替代的解決方案,很多公司通過圖數(shù)據(jù)庫(kù)+大數(shù)據(jù)平臺(tái)的方式實(shí)現(xiàn)了大數(shù)據(jù)量+秒級(jí)相應(yīng)的效果,但是這樣的解決方案由于技術(shù)門檻較高無法輕易掌握。而作為普通企業(yè)來說,需要一款簡(jiǎn)單、成熟的解決方案來滿足這三點(diǎn)要求,實(shí)時(shí)圖數(shù)據(jù)庫(kù)TigerGraph能夠很好的地滿足企業(yè)這三方面的需求。
TigerGraph的獨(dú)門武器
第一,在可擴(kuò)展性和高性能方面,TigerGraph作為全球首家實(shí)現(xiàn)原生并行圖數(shù)據(jù)庫(kù)技術(shù)的公司,底層基于原生并行圖存儲(chǔ)結(jié)構(gòu),所有的數(shù)據(jù)都以邊和節(jié)點(diǎn)的形式進(jìn)行存儲(chǔ),數(shù)據(jù)在進(jìn)入TigerGraph時(shí)會(huì)進(jìn)行壓縮,加之圖分區(qū)技術(shù),實(shí)現(xiàn)了較之其他圖數(shù)據(jù)庫(kù)50-200倍的存儲(chǔ)規(guī)模。邊和節(jié)點(diǎn)既是存儲(chǔ)模型又是計(jì)算模型,所有的節(jié)點(diǎn)都以內(nèi)部索引的形式表達(dá)以利于快速定位,基于MPP架構(gòu)支持大規(guī)模并行計(jì)算。基于以上,TigerGraph在單個(gè)項(xiàng)目上實(shí)現(xiàn)了千億節(jié)點(diǎn),萬(wàn)億邊的數(shù)據(jù)規(guī)模下,支持每天20億次的數(shù)據(jù)查詢和更新。對(duì)于深度鏈接查詢更是可以做到6-10+度的查詢。
第二,在易用性方面,TigerGraph自主開發(fā)了類SQL的圖查詢語(yǔ)言GSQL,GSQL擁有圖靈/SQL完備的表達(dá)力,即目前所有的SQL查詢和算法都可以通過GSQL實(shí)現(xiàn),支持以天計(jì)(不是以周計(jì))的PoC(項(xiàng)目驗(yàn)證)向客戶展示價(jià)值。
第三, TigerGraph開發(fā)了GraphStudio可視化開發(fā)工具,這款工具基于瀏覽器的,從graph schema設(shè)計(jì),到關(guān)系型數(shù)據(jù)-Graph映射,數(shù)據(jù)導(dǎo)入,數(shù)據(jù)查詢均可通過該工具實(shí)現(xiàn),大大降低了使用門檻。數(shù)據(jù)導(dǎo)入后即可查詢N度鄰居、最短路徑等查詢,相對(duì)復(fù)雜的查詢也可以等技術(shù)人員寫好以后,業(yè)務(wù)人員通過GraphStudio進(jìn)行查詢?!疚恼侣杂袆h減】