9月23日,由上海市經(jīng)信委、上海市金融辦指導(dǎo),上海市信息服務(wù)行業(yè)協(xié)會(huì)牽頭編纂的《2014上海網(wǎng)絡(luò)信貸服務(wù)業(yè)白皮書》發(fā)布。白皮書顯示,目前央行征信中心針對(duì)擁有信用記錄公民收集的信息共包含兩類。一類是個(gè)人基本信息,另一類是信用卡消費(fèi)及還款記錄。但P2P網(wǎng)貸行業(yè)判斷借款人信用評(píng)價(jià)的數(shù)據(jù)包含手機(jī)清單、個(gè)人收入證明、社保信息、家屬身份信息、駕照信息等多達(dá)34個(gè)信息類別。這一現(xiàn)象充分顯示了央行征信系統(tǒng)的局限性,因此,一直備受關(guān)注的P2P行業(yè)大數(shù)據(jù)征信再次引發(fā)關(guān)注。借這個(gè)機(jī)會(huì),陽光寶利市場(chǎng)研究部希望對(duì)P2P行業(yè)大數(shù)據(jù)征信進(jìn)行一次前瞻分析,簡(jiǎn)單解讀這一趨勢(shì)的特點(diǎn)與動(dòng)態(tài)。
在討論大數(shù)據(jù)征信問題之前,首先要明確所謂大數(shù)據(jù)的概念。很多人以為,數(shù)據(jù)規(guī)模大就是大數(shù)據(jù),這種觀點(diǎn)是錯(cuò)誤的。所謂大數(shù)據(jù),不但數(shù)據(jù)規(guī)模大,而且最重要的是要數(shù)據(jù)結(jié)構(gòu)復(fù)雜。正如前文提到的央行征信系統(tǒng),其中包含了8億居民的信用卡信息,規(guī)模巨大,然而由于只包含這一類信息,數(shù)據(jù)結(jié)構(gòu)極其簡(jiǎn)單,因此并不能稱之為大數(shù)據(jù),充其量只能稱其大型數(shù)據(jù)庫。數(shù)據(jù)結(jié)構(gòu)復(fù)雜要求針對(duì)數(shù)據(jù)庫中每一個(gè)實(shí)體都有非常多屬性的數(shù)據(jù),以個(gè)人來說,不但要有各種社會(huì)學(xué)背景、財(cái)務(wù)數(shù)據(jù)等等,還應(yīng)包括上網(wǎng)習(xí)慣、操作行為、移動(dòng)路徑等等一系列的數(shù)據(jù),達(dá)到這種復(fù)雜程度的數(shù)據(jù)結(jié)構(gòu)才能被稱為大數(shù)據(jù),才是P2P征信需要的大數(shù)據(jù)。
目前,有這種復(fù)雜數(shù)據(jù)積累并且已經(jīng)具備大數(shù)據(jù)分析基礎(chǔ)的公司只有兩家——百度和阿里巴巴。幾乎所有中國網(wǎng)民都會(huì)使用百度或阿里巴巴的產(chǎn)品,因此這兩家公司有足夠的數(shù)據(jù)儲(chǔ)備。同時(shí),這兩家公司都在至少五年以前就開始投入大量資源探索大數(shù)據(jù)業(yè)務(wù)。百度公司已經(jīng)有一系列探索性質(zhì)的大數(shù)據(jù)分析結(jié)果公布出來,根據(jù)這些分析結(jié)果判斷,百度在大數(shù)據(jù)分析技術(shù)上已經(jīng)趨于成熟。其研究成果最具代表性的就是百度經(jīng)濟(jì)指數(shù)預(yù)測(cè)。百度通過大數(shù)據(jù)對(duì)未來三個(gè)月進(jìn)行經(jīng)濟(jì)指數(shù)預(yù)測(cè),其預(yù)測(cè)結(jié)果與三個(gè)月后國家統(tǒng)計(jì)局公布的統(tǒng)計(jì)結(jié)果重合度極高:
阿里雖然始終沒有公布其大數(shù)據(jù)的研究成果,但是阿里巴巴已經(jīng)開放大數(shù)據(jù)平臺(tái),同時(shí)保持每年暑假都舉辦大數(shù)據(jù)競(jìng)賽,吸引了大量優(yōu)秀人才參與大數(shù)據(jù)分析工作中,又將這些人才的個(gè)人電腦納入了大數(shù)據(jù)云端處理系統(tǒng),增強(qiáng)了數(shù)據(jù)處理能力。在阿里巴巴成功IPO后,更是將大數(shù)據(jù)列為其募集資金的三大投資領(lǐng)域之一,因此即便其還沒有成型的大數(shù)據(jù)研究成果出爐,但是可以預(yù)見阿里巴巴在這一領(lǐng)域應(yīng)該很快就會(huì)有所建樹。
從目前阿里巴巴和百度擁有的數(shù)據(jù)資源判斷,筆者認(rèn)為未來P2P大數(shù)據(jù)征信的數(shù)據(jù)框架大概如下:
社會(huì)學(xué)背景:最基礎(chǔ)的分析維度,通過用戶注冊(cè)信息獲得;
現(xiàn)金流:判斷經(jīng)濟(jì)狀況的基礎(chǔ)維度,通過寶寶類產(chǎn)品、第三方支付等數(shù)據(jù)獲得;
操作習(xí)慣:不同職業(yè)的用戶操作習(xí)慣有非常顯著的差異,可以用來佐證用戶職業(yè)類型,通過用戶操作習(xí)慣記錄系統(tǒng)獲得;
信息偏好:不同階層用戶信息偏好同樣有顯著差異,通過用戶搜索習(xí)慣獲得;
消費(fèi)習(xí)慣:消費(fèi)習(xí)慣代表消費(fèi)能力,通過用戶消費(fèi)記錄獲得;
人際網(wǎng):根據(jù)社會(huì)分層理論,社會(huì)人總是在和自己同一層次的人互動(dòng),通過APP讀取聯(lián)系人信息獲得;
遷徙特征:可判斷是否為本地人、旅游目的地偏好等,通過APP發(fā)送定位信息獲得;
消費(fèi)場(chǎng)所信息:消費(fèi)場(chǎng)所檔次特征可以代表消費(fèi)能力,通過APP發(fā)送定位信息獲得。
可見,大數(shù)據(jù)征信可以極大的豐富目前P2P行業(yè)的征信系統(tǒng),雖然無法起到替代作用,但是可以從更多維度進(jìn)行判斷。但是排除政策等系統(tǒng)性障礙,大數(shù)據(jù)征信目前還面臨著幾個(gè)嚴(yán)峻的問題,導(dǎo)致不能完全發(fā)揮效用。
第一,非結(jié)構(gòu)化數(shù)據(jù)處理。在年初的百度大數(shù)據(jù)論壇上,百度公司的數(shù)據(jù)科學(xué)家就曾提到,目前百度大數(shù)據(jù)面臨的最大問題就是無法從海量非結(jié)構(gòu)化數(shù)據(jù)中篩選出有價(jià)值的數(shù)據(jù),百度公司每天凈增數(shù)據(jù)量大約為1PB,其中至少99%是無效數(shù)據(jù),如何從中篩選出有效數(shù)據(jù)目前還是一個(gè)無法攻克的難關(guān)。
第二,自然語義分析。大數(shù)據(jù)征信中有大量需要應(yīng)用到自然語義分析的工作,如信息偏好等,都需要將文字轉(zhuǎn)化為可以量化的數(shù)據(jù),然而由于漢語不是進(jìn)制語言,計(jì)算機(jī)無法直接識(shí)別,所以只能依靠自然語義分析,但漢語詞語組合極其復(fù)雜,自然語義分析最基礎(chǔ)的工作分詞依然無法通過計(jì)算機(jī)完成,目前所有自然語義分析都是基于詞庫分詞,效率極其低下,完全無法適應(yīng)用戶互聯(lián)網(wǎng)使用習(xí)慣的快速變化。
第三,大數(shù)據(jù)分析與市場(chǎng)研究的鴻溝。這一點(diǎn)是目前大數(shù)據(jù)征信面臨最大但也最容易被人忽略的問題。當(dāng)大數(shù)據(jù)還只停留在數(shù)據(jù)層面上時(shí),對(duì)于P2P征信是沒有意義的,必須有人將數(shù)據(jù)轉(zhuǎn)化為結(jié)論,有何種上網(wǎng)行為的人按時(shí)還款的可能性更高,有哪些信息偏好的人更容易違約等等,這些問題無法直接反映在大數(shù)據(jù)的分析結(jié)果上,此時(shí)就需要有善于解讀和分析客戶行為的市場(chǎng)研究方通過市場(chǎng)研究手段進(jìn)行數(shù)據(jù)解讀與建模,然后才能被P2P公司應(yīng)用。因此,大數(shù)據(jù)能夠完全應(yīng)用到P2P征信領(lǐng)域的前提是大數(shù)據(jù)部門與市場(chǎng)研究部門的對(duì)接融合,將數(shù)據(jù)轉(zhuǎn)化為結(jié)論。但目前這兩個(gè)部門之間存在非常嚴(yán)重的鴻溝,試想,一群連馬斯洛都沒聽說的數(shù)據(jù)分析工程師與一群連oracle都不會(huì)讀的市場(chǎng)研究人員之間在溝通時(shí)如何相互理解?因此目前中國整體大數(shù)據(jù)領(lǐng)域面臨的最大問題就是數(shù)據(jù)分析工程師已經(jīng)寫出了大量的算法代碼,但不知應(yīng)該怎么用,而市場(chǎng)研究人員也做了大量假設(shè)和建模,但不知道怎么實(shí)現(xiàn),雙方在溝通的時(shí)候都在自說自話,溝通之后都發(fā)現(xiàn)自己什么都沒聽懂。這也就導(dǎo)致了大數(shù)據(jù)還只停留在一些有成型模型的宏觀層面應(yīng)用,無法深入到像P2P征信這種細(xì)化到個(gè)人行為判斷的深度。
因此,陽光寶利市場(chǎng)研究部認(rèn)為,可以預(yù)期,在將來個(gè)人征信牌照發(fā)放之后,P2P大數(shù)據(jù)征信應(yīng)該首先通過社會(huì)學(xué)背景和現(xiàn)金流這兩個(gè)簡(jiǎn)單維度進(jìn)行探索,同時(shí)等待自然語義研究的發(fā)展以及數(shù)據(jù)分析與市場(chǎng)研究單位打破雙方之間的技術(shù)壁壘順利對(duì)接,才能開始真正意義上的大數(shù)據(jù)征信時(shí)代。