銀行也談大數(shù)據(jù),看四大銀行怎么說(shuō)

責(zé)任編輯:editor005

2016-05-03 14:34:47

摘自:億歐網(wǎng)

2007年工行基于當(dāng)時(shí)最先進(jìn)的企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)的體系架構(gòu)啟動(dòng)了工行的企業(yè)級(jí)數(shù)據(jù)體系的建設(shè),做了全行統(tǒng)一的管理數(shù)據(jù)的大集中。再上面一層計(jì)算層,是我們不單單提供了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的批量計(jì)算的能力,也通過(guò)一些流數(shù)據(jù)的技術(shù)提供了實(shí)時(shí)的計(jì)算能力。

中國(guó)建設(shè)銀行信息技術(shù)管理部資深經(jīng)理林磊明

1、銀行壓力越來(lái)越大

從十二五走到十三五期間,銀行業(yè)面臨的各方面的壓力越來(lái)越大,從我們的年報(bào)數(shù)字可以看出去年四大行的利潤(rùn)增長(zhǎng)基本上趨近于零增長(zhǎng)。在這樣的情況下,我們?cè)鯓油ㄟ^(guò)IT的引領(lǐng)提升傳統(tǒng)銀行的競(jìng)爭(zhēng)力,這是擺在我們面前的一個(gè)很重要的課題。

大數(shù)據(jù)

  2、過(guò)去十多年期間,銀行業(yè)務(wù)出現(xiàn)兩個(gè)拐點(diǎn)

大數(shù)據(jù)怎么樣能夠在智慧銀行的方向上起到更大的作用呢?

通過(guò)銀行的歷程佐證這樣一個(gè)觀點(diǎn)。過(guò)去十多年期間銀行基本上有兩個(gè)拐點(diǎn), 第一個(gè)拐點(diǎn)就是發(fā)生在互聯(lián)網(wǎng)銀行慢慢取代柜員,IT支持從支持幾萬(wàn)十幾萬(wàn)的柜員到支持面向所有的互聯(lián)網(wǎng)客戶(hù),這里面發(fā)生了一個(gè)根本性的變化,無(wú)論是服務(wù)的形態(tài)還是IT的支撐,都發(fā)生了很根本的變化,這是移動(dòng)和云要在里面發(fā)揮作用。 下一個(gè)拐點(diǎn)是什么?銀行要從原來(lái)做的賬務(wù)性的、交易性的處理轉(zhuǎn)向能夠滲透到經(jīng)濟(jì)生活的方方面面,這是一個(gè)場(chǎng)景化,如果抓不住這個(gè)拐點(diǎn),銀行就要被互聯(lián)網(wǎng)金融顛覆或者管道化。

3、三大互聯(lián)網(wǎng)渠道已建立,具備大數(shù)據(jù)基礎(chǔ)

這幾年銀行三大互聯(lián)網(wǎng)渠道已經(jīng)建立: 手機(jī)銀行,已達(dá)到1.8億多; 網(wǎng)上銀行,我們有2億; 微信銀行,它占的客服服務(wù)總量已經(jīng)超過(guò)了傳統(tǒng)的客戶(hù)服務(wù)。 這意味著我們的渠道、我們場(chǎng)景化的實(shí)踐已經(jīng)見(jiàn)到了效果,另外我們做大數(shù)據(jù)要具備的基礎(chǔ)已經(jīng)存在。

4、大數(shù)據(jù)要解決3大問(wèn)題

談大數(shù)據(jù),對(duì)傳統(tǒng)銀行來(lái)講,要解決3大問(wèn)題: 怎么樣提升對(duì)于客戶(hù)的識(shí)別? 怎么樣對(duì)于客戶(hù)的營(yíng)銷(xiāo)? 怎么樣提升對(duì)于風(fēng)險(xiǎn)的防范?

所以,無(wú)論是用傳統(tǒng)的結(jié)構(gòu)化的數(shù)據(jù),還是用現(xiàn)在互聯(lián)網(wǎng)形態(tài)下面非結(jié)構(gòu)化的數(shù)據(jù),要解決的問(wèn)題都是這些,只不過(guò)我們現(xiàn)在有了更豐富的數(shù)據(jù)源,有了更好的對(duì)于數(shù)據(jù)處理的方法。 目前,建設(shè)銀行已經(jīng)成立了上海大數(shù)據(jù)分析中心,這不屬于技術(shù)部門(mén),屬于信息管理部門(mén)。

5、建行大數(shù)據(jù)平臺(tái)設(shè)計(jì)思路

從設(shè)計(jì)目標(biāo)有這幾條:

策略上架構(gòu)先行,我們已經(jīng)有很好的基礎(chǔ)架構(gòu)。1、基礎(chǔ)能力上,我們?cè)谧鲆恍┗A(chǔ)的大數(shù)據(jù)分析工具的搭建。2、要想明白用數(shù)據(jù)做什么?我一直不太同意你先不要管你做什么,先把平臺(tái)搭起來(lái),我不太清楚有多少人從做數(shù)據(jù)倉(cāng)庫(kù)過(guò)來(lái),當(dāng)時(shí)提的很多的概念是垃圾進(jìn)垃圾出,到了大數(shù)據(jù)時(shí)代沒(méi)人提這個(gè)事情了,好像所有大數(shù)據(jù)都是質(zhì)量很高的,但這方面要警惕。

功能架構(gòu)設(shè)計(jì),和大家都差不多,從采集、存儲(chǔ)、分析、展現(xiàn)到應(yīng)用。我要強(qiáng)調(diào)的是從這個(gè)結(jié)構(gòu)來(lái)說(shuō),這是很完美的一個(gè)結(jié)構(gòu),但要能夠?qū)崟r(shí)或者及時(shí)地反映到你的業(yè)務(wù)流程當(dāng)中去,反映到你的營(yíng)銷(xiāo)當(dāng)中去。不要拘泥于一個(gè)結(jié)構(gòu)。

數(shù)據(jù)設(shè)計(jì),我們有一個(gè)演變過(guò)來(lái)的整體的結(jié)構(gòu)。這里面我想強(qiáng)調(diào)一點(diǎn),大數(shù)據(jù)是數(shù)據(jù)的一部分,結(jié)構(gòu)化的數(shù)據(jù)是大數(shù)據(jù)的一部分,這兩個(gè)東西不要割裂來(lái)看。

6、建行大數(shù)據(jù)成果

我們的大數(shù)據(jù)平臺(tái)取得了一些成果: 實(shí)時(shí)的數(shù)據(jù)倉(cāng)庫(kù)上:我們能夠?qū)蛻?hù)經(jīng)理做實(shí)時(shí)的數(shù)據(jù)提供和交付,提供無(wú)論是并發(fā)的訪(fǎng)問(wèn)還是實(shí)時(shí)服務(wù)方面。 從數(shù)據(jù)的應(yīng)用模式上:我們總結(jié)了六類(lèi)數(shù)據(jù)應(yīng)用模式,包括挖掘類(lèi)、數(shù)據(jù)實(shí)驗(yàn)室、機(jī)器查詢(xún)、儀表盤(pán)、固定報(bào)表、自動(dòng)查詢(xún)等等。

建立“模型實(shí)驗(yàn)室”:現(xiàn)在越來(lái)越發(fā)揮了更大的作用,我們能夠基于結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)支持大數(shù)據(jù)模型的研發(fā),這個(gè)模型研發(fā)出來(lái)我們能夠很快地把它部署到生產(chǎn)當(dāng)中去,能夠?yàn)橐恍Q策,未風(fēng)先管理服務(wù)。

在非結(jié)構(gòu)化大數(shù)據(jù)的應(yīng)用方面,做探索:比如客戶(hù)行為偏好的數(shù)據(jù),錄音文本、地理數(shù)據(jù)的應(yīng)用、能耗數(shù)據(jù)的應(yīng)用、媒體信息、員工行為數(shù)據(jù)等等。通過(guò)位置服務(wù)終端識(shí)別的新技術(shù)新數(shù)據(jù)的采用,拒絕可疑風(fēng)險(xiǎn)事件,上半年避免1.9萬(wàn)起,避免客戶(hù)損失1.4億,這種數(shù)據(jù)越來(lái)越大。

7、未來(lái),場(chǎng)景化、標(biāo)準(zhǔn)化、平臺(tái)化

剛才我提到了場(chǎng)景化,我們希望能夠把金融數(shù)據(jù)的服務(wù)將來(lái)標(biāo)準(zhǔn)化和平臺(tái)化,平臺(tái)化之后能夠在基礎(chǔ)的大數(shù)據(jù)能力、基礎(chǔ)數(shù)據(jù)的提供甚至一些分析數(shù)據(jù)的提供,基礎(chǔ)應(yīng)用,客戶(hù)花香、征信評(píng)級(jí)的監(jiān)測(cè),為無(wú)論是內(nèi)部的客戶(hù)還是外部的客戶(hù)提供更好的大數(shù)據(jù)技術(shù),這是從技術(shù)方面來(lái)看大數(shù)據(jù)下一步做的工作。

中國(guó)工商銀行軟件開(kāi)發(fā)中心信息科技專(zhuān)家王曉平

1、工行大數(shù)據(jù)面臨的挑戰(zhàn)

如何處理數(shù)據(jù)量的快速增長(zhǎng)?首先全行的數(shù)據(jù)量的快速增長(zhǎng),包括我們現(xiàn)在工行每天的交易量,外部互聯(lián)網(wǎng)金融,工行的三大互聯(lián)網(wǎng)平臺(tái)造成用戶(hù)的交易數(shù)據(jù)和行為數(shù)據(jù)有大幅的增長(zhǎng)。 如何快速智能分析歷史數(shù)據(jù)? 工行從2000年開(kāi)始建立數(shù)據(jù)倉(cāng)庫(kù)以來(lái),擁有了龐大的歷史數(shù)據(jù)資產(chǎn),在新的環(huán)境下怎么能夠快速地智能分析,對(duì)我們提出了更高的挑戰(zhàn)。 如何使用內(nèi)外數(shù)據(jù),描述客戶(hù)特征?在數(shù)據(jù)源方面,除了本單位數(shù)據(jù),也需要采納外部的數(shù)據(jù)來(lái)配合進(jìn)行分析。工行已經(jīng)引入了征信數(shù)據(jù)、稅務(wù)數(shù)據(jù)等,怎么做到比較全的數(shù)據(jù)去描繪我行的客戶(hù)特征,這是作為我們的一個(gè)新的課題。

2、工行大數(shù)據(jù)戰(zhàn)略思路

工行整個(gè)的戰(zhàn)略思路是通過(guò)我們行的兩庫(kù)一司的建設(shè)來(lái)完善大數(shù)據(jù)體系。 兩庫(kù)是信息庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)在工行的建設(shè)和銀行的建設(shè)中都是比較傳統(tǒng)的,主要是應(yīng)對(duì)我們之前的銀行交易數(shù)據(jù)、賬戶(hù)數(shù)據(jù),采用結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)來(lái)進(jìn)行相關(guān)的處理。前兩年的時(shí)候工行啟動(dòng)了信息庫(kù)的建設(shè),主要指非結(jié)構(gòu)的數(shù)據(jù)。 通過(guò)兩庫(kù)的建設(shè),我們還建設(shè)了一支分析師隊(duì)伍,能夠?qū)@些龐大的數(shù)據(jù)進(jìn)行相關(guān)業(yè)務(wù)的加工處理和分析。

3、發(fā)展階段

工行大數(shù)據(jù)的發(fā)展歷程可以分幾個(gè)階段,從TB級(jí)已經(jīng)進(jìn)入了PB級(jí)的建設(shè)階段,接下去在可預(yù)見(jiàn)的幾年內(nèi)會(huì)進(jìn)入EB級(jí)的龐大體量

最早工行是2000年初,那個(gè)時(shí)候大數(shù)據(jù)的領(lǐng)域更多的還是應(yīng)用在一些報(bào)表的快速展現(xiàn),所以那個(gè)時(shí)候我們是基于比較傳統(tǒng)的Oracle和SaaS,做了T+1的動(dòng)態(tài)報(bào)表,行領(lǐng)導(dǎo)和管理層能夠在第二天上班前看到我們行昨天的經(jīng)營(yíng)數(shù)據(jù),這是最早建立的。

2007年工行基于當(dāng)時(shí)最先進(jìn)的企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)的體系架構(gòu)啟動(dòng)了工行的企業(yè)級(jí)數(shù)據(jù)體系的建設(shè),做了全行統(tǒng)一的管理數(shù)據(jù)的大集中。

2010年基于我們的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)支持,我們推出了工行的MOVA管理會(huì)計(jì)系統(tǒng),做了全行績(jī)效考核的管理系統(tǒng)。 2013年隨著外部形勢(shì)的發(fā)展,大量數(shù)據(jù)爆發(fā)式的出現(xiàn),我們引進(jìn)了大數(shù)據(jù)領(lǐng)域在業(yè)界最流行的Hadoop技術(shù),在Hadoop基礎(chǔ)上搭建了信息庫(kù),發(fā)展是非??斓?。

2014年工行基于大數(shù)據(jù),原來(lái)的大數(shù)據(jù)采用連機(jī)異部批量的方式,通過(guò)文件存儲(chǔ)的方式,不管是數(shù)據(jù)倉(cāng)庫(kù)還是信息庫(kù),在時(shí)效上相對(duì)來(lái)說(shuō)比較慢,所以自主研發(fā)了一個(gè)流數(shù)據(jù)平臺(tái),能夠提供實(shí)時(shí)或者準(zhǔn)實(shí)時(shí)的流數(shù)據(jù)處理。 2015年下半年和今年正在推動(dòng)分布式數(shù)據(jù)庫(kù)的落地工作,會(huì)和企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)做一個(gè)互補(bǔ)。這是大數(shù)據(jù)的主要技術(shù)演進(jìn)。

4、大數(shù)據(jù)體系

在大數(shù)據(jù)平臺(tái)上,我們可以把它抽象成如下幾層:

第一層是數(shù)據(jù)采集,統(tǒng)一針對(duì)外部和內(nèi)部的數(shù)據(jù)進(jìn)行相關(guān)的數(shù)據(jù)收集,包括日志信息、行為信息和業(yè)務(wù)信息。

再上面一層計(jì)算層,是我們不單單提供了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的批量計(jì)算的能力,也通過(guò)一些流數(shù)據(jù)的技術(shù)提供了實(shí)時(shí)的計(jì)算能力。

再上面一層應(yīng)用層,抽象了大數(shù)據(jù)相關(guān)的應(yīng)用,包括用戶(hù)可以自定義的查詢(xún)功能。通過(guò)這些信息的服務(wù),把這些服務(wù)抽象到我們的業(yè)務(wù)系統(tǒng)中,通過(guò)我們的管理會(huì)計(jì)系統(tǒng),通過(guò)分析師平臺(tái)、風(fēng)險(xiǎn)系統(tǒng)、營(yíng)銷(xiāo)系統(tǒng),為我們?cè)跀?shù)據(jù)的運(yùn)營(yíng)、風(fēng)險(xiǎn)控制和營(yíng)銷(xiāo)方面都提供相關(guān)的支持,這就是主要的大數(shù)據(jù)分層體系。

4、分布式、開(kāi)源、通用成為趨勢(shì)

從大數(shù)據(jù)的起源開(kāi)始,數(shù)據(jù)倉(cāng)庫(kù)到目前的大數(shù)據(jù)新形勢(shì)下,數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)在做非常大的升級(jí)換代和變化。2014年工行從高成本封閉的專(zhuān)業(yè)系統(tǒng)(如:Teradata),開(kāi)始向高性?xún)r(jià)比、通用設(shè)備和開(kāi)放技術(shù)的系統(tǒng)轉(zhuǎn)變。

轉(zhuǎn)型有兩個(gè)原因:

第一是數(shù)據(jù)量太大了,原來(lái)只需要處理TB級(jí)已經(jīng)轉(zhuǎn)向需要處理PB級(jí)甚至以后EB級(jí)的數(shù)據(jù)量。如果是這么大的數(shù)據(jù)量,運(yùn)用傳統(tǒng)的設(shè)備沒(méi)有辦法進(jìn)行相關(guān)的處理。

第二,性?xún)r(jià)比,我們做過(guò)測(cè)量,通過(guò)開(kāi)放式的彈性可擴(kuò)展的普通PC服務(wù)器的方式,比傳統(tǒng)設(shè)備在成本上介紹十幾分之一或者幾十分之一。我們?cè)谛缕脚_(tái)上一方面引進(jìn)了Hadoop平臺(tái)基于普通的PC服務(wù)器進(jìn)行搭建,短短一兩年的時(shí)間已經(jīng)擴(kuò)展到150個(gè)節(jié)點(diǎn),存儲(chǔ)空間已經(jīng)超過(guò)1PB,超過(guò)建設(shè)了十幾年二十年的Teradata的數(shù)據(jù)容量。

另外我們?cè)谘芯恳矔?huì)盡快落地的分布數(shù)據(jù)庫(kù),會(huì)基于開(kāi)源的底層架構(gòu),基于普通的PC服務(wù)器完成數(shù)據(jù)倉(cāng)庫(kù)體系的擴(kuò)充。后續(xù)在大數(shù)據(jù)的處理加工方面會(huì)基于分布數(shù)據(jù)庫(kù)進(jìn)行處理。

從目前的分析角度來(lái)看,Teradata會(huì)保留,著重在高端的分析師分析挖掘的探索性的工作方面。后續(xù)工行的大數(shù)據(jù)體系會(huì)采用多種技術(shù)路線(xiàn)、多種技術(shù)平臺(tái)共存的方式。

5、非結(jié)構(gòu)化數(shù)據(jù)信息庫(kù),通過(guò)搜索

非結(jié)構(gòu)化數(shù)據(jù)信息庫(kù)的建設(shè)情況,建行已經(jīng)介紹了,工行也有點(diǎn)像。信息庫(kù)的建設(shè)原則,因?yàn)榉墙Y(jié)構(gòu)化的數(shù)據(jù)的量是非常大的,所以我們的原則是信息庫(kù)建設(shè)沒(méi)有把非結(jié)構(gòu)化建設(shè)進(jìn)行物理存儲(chǔ)的集中,我們只是通過(guò)統(tǒng)一的搜索引擎讓用戶(hù)能夠快速地搜索找到他需要的非結(jié)構(gòu)化的信息。

6、風(fēng)險(xiǎn)防控,是落地最快、最有成效的應(yīng)用

工行在大數(shù)據(jù)應(yīng)用方面主要側(cè)重在風(fēng)險(xiǎn)方面。

工行通過(guò)大數(shù)據(jù)在事前、事中、事后三個(gè)環(huán)節(jié)的運(yùn)用進(jìn)行風(fēng)險(xiǎn)的柔性控制。簡(jiǎn)單地舉一個(gè)例子,事前,比如銀行卡的授信過(guò)程中,或者信貸要進(jìn)行發(fā)放做凈值調(diào)查中,數(shù)據(jù)能給它一個(gè)支撐。事中,比如銀行卡最近比較多地發(fā)生盜刷行為,我們可以在事中通過(guò)大數(shù)據(jù)的方式發(fā)現(xiàn)銀行卡的盜刷行為。事后,可以根據(jù)事后的交易或者發(fā)生的事件進(jìn)行相關(guān)的分析,分析我們后續(xù)在業(yè)務(wù)的拓展或者風(fēng)險(xiǎn)控制方面有哪些需要進(jìn)一步改進(jìn)或者補(bǔ)救的工作。

這里舉了幾個(gè)簡(jiǎn)單的案例。非常好的大數(shù)據(jù)的應(yīng)用場(chǎng)景,

第一,交易反欺詐,需要利用大數(shù)據(jù)流數(shù)據(jù)的技術(shù),用戶(hù)在做交易的過(guò)程中采用主機(jī)旁路技術(shù),交易沒(méi)有完成之前通過(guò)大數(shù)據(jù)在內(nèi)存中進(jìn)行一個(gè)判斷。

第二,大數(shù)據(jù)怎么運(yùn)用模型,通過(guò)比較好的用戶(hù)特征的總結(jié)和模型做一個(gè)監(jiān)控。通過(guò)標(biāo)簽信息,比如我們定義了兩個(gè)標(biāo)簽,一個(gè)是用戶(hù)開(kāi)戶(hù)的地區(qū)比較廣泛,另一個(gè)他持有比較多的借記卡,我們可以認(rèn)為他涉嫌倒賣(mài)銀行卡的嫌疑,我們通過(guò)大數(shù)據(jù)的計(jì)算可以把這些人員抓出來(lái),可以進(jìn)行后續(xù)的業(yè)務(wù)處理和防空。這也是大數(shù)據(jù)應(yīng)用的比較好的方面。

第三,現(xiàn)在各個(gè)銀行業(yè)碰到的比較大的困境,信貸資產(chǎn)的質(zhì)量問(wèn)題。工行持續(xù)在推動(dòng)運(yùn)用大數(shù)據(jù)驅(qū)防控信貸風(fēng)險(xiǎn),工行成立了信貸防控中心,運(yùn)用大數(shù)據(jù)技術(shù)在進(jìn)行相關(guān)的防控。

中國(guó)農(nóng)業(yè)銀行軟件開(kāi)發(fā)中心的專(zhuān)家趙維平

1、銀行在技術(shù)選擇上,相對(duì)保守

我們?cè)?003年初開(kāi)始搞大數(shù)據(jù),當(dāng)時(shí)有很多困惑,首先感覺(jué)到大數(shù)據(jù)到來(lái)了,現(xiàn)在各個(gè)行業(yè),中央臺(tái)什么東西都用大數(shù)據(jù)說(shuō)話(huà),我們?cè)阢y行業(yè)我們能做什么呢?

早期在十幾年前我們大家做數(shù)據(jù)倉(cāng)庫(kù)的時(shí)候,大家可能選擇面都很窄,四大行除了我們沒(méi)用TD其他都是用TD做的數(shù)據(jù)倉(cāng)庫(kù)。我們當(dāng)時(shí)某系統(tǒng)也很痛苦,計(jì)算資源可以擴(kuò),但I(xiàn)O能力就在那里。當(dāng)時(shí)覺(jué)得列存儲(chǔ)帶來(lái)很大的優(yōu)勢(shì),處理通用的數(shù)據(jù)量減少了很多IO。平臺(tái)選用什么?還用傳統(tǒng)的嗎?新型的怎么樣?

金融在有些技術(shù)的選擇上還是相對(duì)比較保守的,我們不會(huì)用最新的技術(shù),不會(huì)用最新的版本,這也因?yàn)榻鹑诠の蛧?guó)家人民銀行對(duì)于我們的連續(xù)服務(wù)要求特別高,一旦出了事情領(lǐng)導(dǎo)交不了差。

2、自主可控,我們從幾點(diǎn)入手

在自主可控上,基礎(chǔ)硬件、基礎(chǔ)軟件、數(shù)據(jù)模型、工具平臺(tái)和制度管理都是自主可控的。

硬件方面,采用華為的RH2288系列,2C、docore、256內(nèi)存、12 4T硬盤(pán),不同時(shí)期買(mǎi)的硬盤(pán)的容量是不一樣的,后來(lái)是4T,之前是3T。

基礎(chǔ)軟件方面,我們引進(jìn)了國(guó)產(chǎn)的南大通用做的MPP架構(gòu)數(shù)據(jù)庫(kù),我們?cè)谠卧囘\(yùn)行階段從2013年圓形環(huán)境開(kāi)始投產(chǎn),采用28個(gè)數(shù)據(jù)節(jié)點(diǎn),2014年3月份把它擴(kuò)到56個(gè)節(jié)點(diǎn)。非結(jié)構(gòu)化,結(jié)構(gòu)化的數(shù)據(jù)上游生產(chǎn)數(shù)據(jù)基本都是放在MPV架構(gòu)數(shù)據(jù)庫(kù)里,使用起來(lái)技術(shù)上更流暢,效率更好。Hadoop方面,非結(jié)構(gòu)方面目前使用的是CDH開(kāi)源版,大概有100個(gè)左右的Datanode。

數(shù)據(jù)模型方面,我們結(jié)合先進(jìn)的建模理論,我們?nèi)诤狭朔妒胶途S度的思路。我們?cè)谥鲙?kù)核心層面基本是范式建模減少重復(fù)。維度方面由業(yè)務(wù)驅(qū)動(dòng)的方式建立維度模型為主。

基礎(chǔ)的工具方面,大家知道有ETL、批量調(diào)度、源數(shù)據(jù)的管理,這些東西都是我們自主開(kāi)發(fā)的。我們制定了一套比較完備的規(guī)范、制度、方法、標(biāo)準(zhǔn)。

3、整體邏輯架構(gòu)圖

這是我們整體的邏輯架構(gòu)圖

數(shù)據(jù)源層,上游的生產(chǎn)系統(tǒng),幾乎全行所有的生產(chǎn)系統(tǒng)的數(shù)據(jù)到今年底已經(jīng)全部進(jìn)來(lái)了,金融交易類(lèi)百分之百都進(jìn)來(lái)了,現(xiàn)在有60多個(gè)上游系統(tǒng),通過(guò)一個(gè)交換平臺(tái),交換平臺(tái)不僅僅為大數(shù)據(jù)服務(wù),負(fù)責(zé)上游生產(chǎn)和下游數(shù)據(jù)消費(fèi)系統(tǒng)總分行之間、總行各應(yīng)用系統(tǒng)間數(shù)據(jù)交互的平臺(tái)。

數(shù)據(jù)處理層,淡黃色指關(guān)系型的數(shù)據(jù)庫(kù),也就是MPP架構(gòu)數(shù)據(jù)庫(kù)。操作數(shù)據(jù)區(qū)、非結(jié)構(gòu)化數(shù)據(jù)區(qū)、歷史數(shù)據(jù)平臺(tái)、流計(jì)算,流計(jì)算用Hadoop Stam架構(gòu)。

下面是Hadoop的東西。我們?cè)谡麄€(gè)大數(shù)據(jù)平臺(tái)的結(jié)構(gòu)化主庫(kù)里分了基礎(chǔ)數(shù)據(jù)庫(kù)、共性加工區(qū)和指標(biāo)區(qū),非結(jié)構(gòu)化有操作數(shù)據(jù)區(qū)、非結(jié)構(gòu)化處理和歷史數(shù)據(jù)平臺(tái)。影像那部分早期已經(jīng)建好了,為了減少網(wǎng)絡(luò)壓力基本上存在分行。

跟傳統(tǒng)不一樣的是,大數(shù)據(jù)平臺(tái)的日加工時(shí)間目前在七八個(gè)小時(shí),早期批量一個(gè)是優(yōu)化不到位,一個(gè)是處理的分層,所以用了Hadoop把ETL和操作數(shù)據(jù)區(qū)都放在Hadoop里,因?yàn)榭梢怨?jié)點(diǎn)多、計(jì)算能力強(qiáng),完成了ET的過(guò)程,上游來(lái)的全量數(shù)據(jù)在這里做了歸類(lèi),生成了一個(gè)純層量的數(shù)據(jù),減少了一天的批量時(shí)間幾個(gè)小時(shí),提升33%的性能。

數(shù)據(jù)集市層,現(xiàn)在規(guī)劃8個(gè)數(shù)據(jù)集市,跟其他行沒(méi)有太多區(qū)別,客戶(hù)營(yíng)銷(xiāo)、風(fēng)險(xiǎn)管控、外部監(jiān)管,對(duì)分行服務(wù)的集市,各行服務(wù)的對(duì)象都是一樣的。底下研了數(shù)據(jù)提取平臺(tái),外部監(jiān)管和數(shù)據(jù)提取任務(wù)特別重,早期都得到生產(chǎn)去導(dǎo)帶生成,現(xiàn)在我們通過(guò)單獨(dú)建一個(gè)環(huán)境,把一些數(shù)據(jù)預(yù)加工好,基本以寬表的模式,以前做加法的事情變成了做減法,至少80%的提出需求都在我的環(huán)境里直接提取,大大減輕了人力。

底下是分析挖掘平臺(tái),ODM、SaaS都是農(nóng)行已有的云,大數(shù)據(jù)只是它的用戶(hù)而已,我們?cè)贖adoop分裝了應(yīng)用,為全行的分期挖掘提供服務(wù)支撐。對(duì)上層應(yīng)用的服務(wù)有直接訪(fǎng)問(wèn),數(shù)據(jù)文件和外部服務(wù)和數(shù)據(jù)快速?gòu)?fù)制等技術(shù)和應(yīng)用進(jìn)行連接。應(yīng)用主要是對(duì)資產(chǎn)負(fù)債領(lǐng)域、電子銀行領(lǐng)域、信用卡和個(gè)人金融領(lǐng)域、風(fēng)險(xiǎn)和財(cái)務(wù)提供了一些支撐。

大數(shù)據(jù)平臺(tái)和集市,我們建成了4個(gè)集市,有3個(gè)集市在建的過(guò)程中,今年分行下半年要搞分行集市的試點(diǎn)。應(yīng)用,我們提供統(tǒng)一的數(shù)據(jù)展示和服務(wù)。展示服務(wù)一個(gè)是對(duì)所有全行業(yè)的用戶(hù),對(duì)所有行業(yè)監(jiān)管的各種報(bào)送,因?yàn)楦鞣N報(bào)送比較零亂,點(diǎn)也比較多,趨向不同部署也不一樣,底層做了統(tǒng)一調(diào)度、統(tǒng)一監(jiān)控和ETL,對(duì)全行描述類(lèi)數(shù)據(jù)進(jìn)行了統(tǒng)一管理,包括我們的數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量管理都在這里統(tǒng)一進(jìn)行。

4、硬件環(huán)境如何進(jìn)行有效支撐?

這是硬件的環(huán)境

在Gbase方面,56是生產(chǎn)環(huán)境,現(xiàn)在實(shí)現(xiàn)了56環(huán)境的雙活,這兩個(gè)56環(huán)境同時(shí)在工作,一個(gè)做T+1當(dāng)天的數(shù)據(jù)加工,一個(gè)做隔一天的連級(jí)服務(wù),這樣的話(huà)連級(jí)服務(wù)的能力,按實(shí)側(cè)的話(huà)會(huì)比以前做TD的測(cè)試中更強(qiáng)一點(diǎn),另外個(gè)人客戶(hù)集市、資產(chǎn)負(fù)債集市,還做了數(shù)據(jù)挖掘?qū)哟危珿base集成了WODM和SaaS。Hadoop的生產(chǎn)環(huán)境是92個(gè)datanode和2個(gè)namenode。我們現(xiàn)在Gbase有236個(gè)節(jié)點(diǎn),庫(kù)內(nèi)主副本的整個(gè)容量有5.2PB數(shù)據(jù),Hadoop的集群是150個(gè)節(jié)點(diǎn),容量是4.3PB。

56+8是56個(gè)數(shù)據(jù)計(jì)算環(huán)境,8個(gè)是加載機(jī),56個(gè)環(huán)境每個(gè)節(jié)點(diǎn)是12塊3T的硬盤(pán),有2塊做Read1,是存放操作系統(tǒng)和重要的參數(shù)信息和數(shù)據(jù)庫(kù)環(huán)境,其他10個(gè)環(huán)境是Read5來(lái)存放數(shù)據(jù),一個(gè)節(jié)點(diǎn)存放有效數(shù)據(jù)10幾個(gè)T,56的環(huán)境里有效數(shù)據(jù)將近300個(gè)T,Gbase有5到10的壓縮比,各個(gè)字段可以選擇壓縮去,300個(gè)TB的數(shù)據(jù)換算成倉(cāng)外的文本量,就算簡(jiǎn)單乘以300T也是1.5PB以上,現(xiàn)在折算成1.8PB左右,是PB級(jí)的。

我們跟Gbase從這個(gè)時(shí)候開(kāi)始合作,我們?cè)诎朔矫娓麄児餐隽艘恍﹥?yōu)化工作,跟Gbase做了大量?jī)?yōu)化,有近百個(gè)優(yōu)化的細(xì)項(xiàng)。MPP數(shù)據(jù)庫(kù),我們搭建了雙活機(jī)制,兩個(gè)庫(kù)之間的同步加驗(yàn)證現(xiàn)在每天大概是22TB的數(shù)據(jù),僅需要3小時(shí)。早期在給主庫(kù)做備份的時(shí)候,100TB的數(shù)據(jù)有小40個(gè)小時(shí),后來(lái)我們用了Hadoop做備份,100TB用了不到10小時(shí),大家用TB備份一直是比較難的事情,在Hadoop方面我們做了大量基礎(chǔ)性的工作,非結(jié)構(gòu)化的數(shù)據(jù)、文件的服務(wù)、數(shù)據(jù)的備份等等。

我們做了MPP和Hadoop的交互,有些應(yīng)用要交互,我們做了非結(jié)構(gòu)化MPP和HDFS之間的融合。后來(lái)啟用了MPP和Hadoop之間的備份,大大提高了效率,300T也需要將近20個(gè)小時(shí),所以我們做了雙活,如果雙活穩(wěn)定的話(huà)我們就不用備份數(shù)據(jù)了。開(kāi)發(fā)的基礎(chǔ)工具包括ETL工具、批量調(diào)度、整個(gè)的監(jiān)控和統(tǒng)一訪(fǎng)問(wèn)層,監(jiān)控這塊我們還做了健康檢查,通過(guò)SaaS把半年的日志交過(guò)去,最后生成一些模型,給我預(yù)測(cè)整個(gè)系統(tǒng)運(yùn)行的安全狀況。數(shù)據(jù)混搭的模型設(shè)計(jì),我們有一套完整的方法論,能保證數(shù)據(jù)的準(zhǔn)確、穩(wěn)定、完整和可用。同時(shí)我們?cè)诜椒ㄕ?、開(kāi)發(fā)規(guī)范、數(shù)據(jù)規(guī)范和流程規(guī)范都積攢了一系列文檔。整個(gè)模型是分層的,操作數(shù)據(jù)區(qū)、基礎(chǔ)數(shù)據(jù)區(qū)、共性加工區(qū)、指標(biāo)層和集市層,完成了客戶(hù)的統(tǒng)一試圖、產(chǎn)品的統(tǒng)一管理和客戶(hù)的精準(zhǔn)營(yíng)銷(xiāo)和風(fēng)險(xiǎn)管控等等。

通過(guò)6個(gè)方面對(duì)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)進(jìn)行了全生命周期的管理,包括建模、驗(yàn)證、清理、準(zhǔn)入、數(shù)據(jù)地圖和一些規(guī)范。

4、如何充分體現(xiàn)大數(shù)據(jù)的價(jià)值?

我們?cè)诖髷?shù)據(jù)的建設(shè)中充分體現(xiàn)了數(shù)據(jù)的價(jià)值:

分析挖掘上,跟業(yè)務(wù)融合,分別在多個(gè)領(lǐng)域?qū)懗隽?0多份分析報(bào)告,有精準(zhǔn)營(yíng)銷(xiāo)和業(yè)績(jī)價(jià)值等九個(gè)方面都落到不同的應(yīng)用去嘗試實(shí)現(xiàn)。

培養(yǎng)的人才,對(duì)SaaS、Spack、R語(yǔ)言,熟悉這些算法,對(duì)聚類(lèi)、分類(lèi)、回歸、神經(jīng)網(wǎng)絡(luò)等等進(jìn)行了研究,

要好用,建立一套多場(chǎng)景的實(shí)驗(yàn)環(huán)境,流水線(xiàn)式的作業(yè)、組建化的模型集脫拉拽式的服務(wù),使業(yè)務(wù)人員能更快地使用我的系統(tǒng)。多個(gè)技術(shù)對(duì)用戶(hù)來(lái)講是透明的,用戶(hù)要使用的話(huà)非常方便。我們展示了非常完整的服務(wù),對(duì)基礎(chǔ)環(huán)境融合,對(duì)資源的管理展現(xiàn)進(jìn)行全覆蓋,部署的模式也是收放自如的,展現(xiàn)也突破了傳統(tǒng)的思維,我們?cè)趫?bào)表展示層面是可交付的、動(dòng)態(tài)的,可以放大縮小,可以按某一列去排序,可以鎖定表頭,不是一個(gè)靜態(tài)的頁(yè)面,報(bào)表是可操作的。

中國(guó)銀行總行軟件中心上海分中心副總經(jīng)理牛曉峰

1、思考:大數(shù)據(jù)沒(méi)有成功的原因是什么?

2015年下半年將近年底,Ganner對(duì)這1000多家企業(yè)和機(jī)構(gòu)做了另外一次調(diào)查,大數(shù)據(jù)項(xiàng)目成功上馬的不到9%,為什么?Ganner對(duì)他們沒(méi)有成功做了原因的分析,其中比較重要的幾條是這樣的。 排在第一位的是無(wú)法挖掘出數(shù)據(jù)的價(jià)值是什么, 第二位是企業(yè)或機(jī)構(gòu)沒(méi)有明確的大數(shù)據(jù)的戰(zhàn)略目標(biāo)和戰(zhàn)略規(guī)劃, 第三是缺乏核心技術(shù), 第四是無(wú)法有效的整合數(shù)據(jù)資源, 第五是企業(yè)的內(nèi)部無(wú)法對(duì)大數(shù)據(jù)的實(shí)施和規(guī)劃達(dá)成共識(shí)。 總結(jié)了這樣一些不太順利的原因之后,我覺(jué)得有一個(gè)清晰的完整的系統(tǒng)性的戰(zhàn)略規(guī)劃,對(duì)中國(guó)銀行以后大數(shù)據(jù)的建設(shè)的作用是非常巨大的。

2、中行特別之處

中行的戰(zhàn)略方向: 以平臺(tái)為支撐構(gòu)建大數(shù)據(jù)的技術(shù)體系; 以數(shù)據(jù)為基礎(chǔ)充分整合數(shù)據(jù)資源; 以應(yīng)用為驅(qū)動(dòng)深入挖掘數(shù)據(jù)價(jià)值; 以人才為核心提升數(shù)據(jù)分析能力; 以平臺(tái)為支撐構(gòu)建大數(shù)據(jù)的技術(shù)體系。我們把大數(shù)據(jù)的技術(shù)體系分成戰(zhàn)略層面、規(guī)劃層面和設(shè)計(jì)及交付層面,在這里面最重要的是大數(shù)據(jù)的體系架構(gòu),分為業(yè)務(wù)架構(gòu)、應(yīng)用架構(gòu)、信息架構(gòu)和技術(shù)架構(gòu)四個(gè)不同的架構(gòu),在這四個(gè)不同的架構(gòu)里分別支撐我們的業(yè)務(wù)流程和端到端的場(chǎng)景及應(yīng)用的組建及分析模塊,最后是設(shè)計(jì)跟交付。

我們?cè)趯?shí)施的方面采用分行試點(diǎn)的模式,有很多的調(diào)查機(jī)構(gòu)在對(duì)大企業(yè)實(shí)施大數(shù)據(jù)項(xiàng)目做了總結(jié)之后發(fā)現(xiàn)大數(shù)據(jù)的項(xiàng)目實(shí)施方法上分兩個(gè)流派,一個(gè)流派是自頂向下的,上來(lái)規(guī)劃很大的大叔據(jù)的東西,從地層往下逐漸延伸,累了大量的數(shù)據(jù),在這里面做清洗分析,在這里面找規(guī)律,再看這個(gè)企業(yè)怎么從數(shù)據(jù)里得到什么樣的東西。另一個(gè)流派是從底向上的,先看需要哪些東西,再對(duì)這些數(shù)據(jù)進(jìn)行整合。我看了很多相關(guān)的實(shí)例之后,后一個(gè)方法在現(xiàn)階段的效果會(huì)更明顯,有了清晰的需求才會(huì)更準(zhǔn)確的對(duì)位需求的產(chǎn)品。所以我們?cè)诖髷?shù)據(jù)實(shí)施的策略上采取小步快跑、快速迭代、迅速試錯(cuò)的方式。

3、中銀開(kāi)放平臺(tái),是中行大數(shù)據(jù)實(shí)施例子之一

中銀開(kāi)放平臺(tái),2014年IDC金融的大獎(jiǎng),去年獲得人民銀行的獎(jiǎng),亞洲金融家組織把它評(píng)為今年最佳的金融云服務(wù)產(chǎn)品,這個(gè)產(chǎn)品是我們對(duì)大戰(zhàn)略的落地實(shí)施的例子。這個(gè)產(chǎn)品的主要設(shè)計(jì)思路是我們把整個(gè)中國(guó)銀行的大數(shù)據(jù)進(jìn)行了歸并整理之后,開(kāi)發(fā)了1000多個(gè)標(biāo)準(zhǔn)的API接口,這些API接口可以用與我們的分行甚至我們的客戶(hù),在我們規(guī)劃的未來(lái)里,可以通過(guò)這些API訪(fǎng)問(wèn)和使用中國(guó)銀行的數(shù)據(jù),用于加工得到自己想要的相關(guān)結(jié)果。

目前已經(jīng)有很多分行利用這樣的平臺(tái)開(kāi)發(fā)出了很多比較受歡迎的產(chǎn)品,大家如果有興趣的話(huà)可以在蘋(píng)果的APP Store或者安卓的平臺(tái)下載這個(gè)產(chǎn)品看一下。

4、讓數(shù)據(jù)發(fā)揮最大價(jià)值

1、我們非常希望在合規(guī)的前提下充分利用銀行外部的數(shù)據(jù)服務(wù)。因?yàn)殂y行或者金融企業(yè)的數(shù)據(jù)在深度上不是一般的互聯(lián)網(wǎng)企業(yè)能夠比擬的,如果我們金融行業(yè)跟其他的相關(guān)企業(yè)進(jìn)行有效的數(shù)據(jù)交換,大家彼此利用對(duì)方的優(yōu)勢(shì),就能夠使我們這個(gè)數(shù)據(jù)得到更完美的使用。

2、以應(yīng)用為驅(qū)動(dòng),深入挖掘數(shù)據(jù)價(jià)值。做大數(shù)據(jù)應(yīng)用的場(chǎng)景產(chǎn)品。此外中國(guó)銀行還推出來(lái)口碑貸、中銀沃金融的服務(wù),都是按照這個(gè)思路去進(jìn)行我們產(chǎn)品的組合規(guī)劃和設(shè)計(jì)。

3、精準(zhǔn)地建設(shè)客戶(hù)的營(yíng)銷(xiāo)平臺(tái),把線(xiàn)下的客戶(hù)信息和線(xiàn)上的客戶(hù)行為統(tǒng)一在一起,把結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)有機(jī)地提煉并且整合,爭(zhēng)取能夠精確地描述客戶(hù)的各項(xiàng)屬性特征。

注:4月28日,本文系工業(yè)和信息化部指導(dǎo)、中國(guó)信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)" 上的現(xiàn)場(chǎng)演講,特大號(hào)(ID:ITXXXL)據(jù)IDC圈報(bào)道綜合整理, 部分演講內(nèi)容有刪減。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)