2014年11月26日,2014中國(guó)支付清算與互聯(lián)網(wǎng)金融論壇在京舉行,本屆論壇以“支付變革與互聯(lián)網(wǎng)金融發(fā)展”為主題,重點(diǎn)研討了支付變革的創(chuàng)新、互聯(lián)網(wǎng)金融治理等熱點(diǎn)問題,為行業(yè)發(fā)展具有重要引領(lǐng)作用,中國(guó)人民銀行潘功勝副行長(zhǎng)出席論壇并發(fā)表了重要講話,中國(guó)人民銀行支付結(jié)算司研究部門及中國(guó)銀監(jiān)會(huì)創(chuàng)新監(jiān)管部等領(lǐng)導(dǎo)也做了主題演講,來自銀行、保險(xiǎn)、中國(guó)銀聯(lián)、非金融支付機(jī)構(gòu)、互聯(lián)網(wǎng)金融機(jī)構(gòu)、互聯(lián)網(wǎng)企業(yè)、基金公司等企業(yè)負(fù)責(zé)人及科研院所的國(guó)內(nèi)外專家都做了精彩的分享。
中國(guó)科學(xué)院技術(shù)研究所副總工程師程學(xué)旗在會(huì)上作主題演講,他表示,支付、金融、ONLINE、OFFLINE的核心是數(shù)據(jù),對(duì)于金融支付大數(shù)據(jù),不僅僅要考慮大數(shù)據(jù)通用的處理技術(shù),還要考慮特定的大數(shù)據(jù)應(yīng)該用什么技術(shù)處理,能夠把大數(shù)據(jù)的價(jià)值挖掘出來。
數(shù)據(jù)價(jià)值是什么呢?程學(xué)旗表示,在垂直領(lǐng)域里有很多價(jià)值,比如做分析、做預(yù)測(cè),比如征信體系的制定,或者做用戶行為的挖掘、信息的推介、產(chǎn)品的推介,而這些東西基于大數(shù)據(jù)和數(shù)據(jù)管理可歸成三類,一是對(duì)現(xiàn)狀進(jìn)行分析和感知;二是對(duì)未來的趨勢(shì)進(jìn)行預(yù)測(cè)和判斷;三是在對(duì)現(xiàn)狀感知、對(duì)未來預(yù)測(cè)時(shí)候,形成的決策調(diào)控行為。感知現(xiàn)在、預(yù)測(cè)未來、決策調(diào)控三大類應(yīng)用,無論在科學(xué)發(fā)現(xiàn),還是智慧政府、智慧城市,包括重大疾病檢測(cè)、網(wǎng)絡(luò)安全以及金融領(lǐng)域,都面臨相對(duì)共性的需求。
對(duì)于大數(shù)據(jù)計(jì)算的挑戰(zhàn)性問題,程學(xué)旗認(rèn)為,第一個(gè)問題是數(shù)據(jù)復(fù)雜性問題;第二個(gè)問題是數(shù)據(jù)的多樣性;第三個(gè)問題是數(shù)據(jù)的傳輸、存儲(chǔ)和處理;最后一個(gè)問題是基于所謂的數(shù)據(jù)復(fù)雜性度量、復(fù)雜性的優(yōu)化和系統(tǒng)復(fù)雜性的設(shè)計(jì)。在這其中怎么處理好數(shù)據(jù)的安全和隱私,程學(xué)旗認(rèn)為,在金融領(lǐng)域是一個(gè)非常重要的問題,無論是監(jiān)管,還是個(gè)人隱私、商業(yè)機(jī)密,或是數(shù)據(jù)從數(shù)據(jù)權(quán)屬角度講,都非常重要。
他表示,要讓數(shù)據(jù)價(jià)值放大,通過某種程度有償?shù)臄?shù)據(jù)共享實(shí)現(xiàn)這個(gè)行業(yè)生態(tài)更大規(guī)模的發(fā)展,構(gòu)建更好的生態(tài)體系,是特別需要重點(diǎn)關(guān)注的一個(gè)問題。在技術(shù)層面,基于大數(shù)據(jù)的金融產(chǎn)品的推薦,基于大數(shù)據(jù)發(fā)展態(tài)勢(shì)的推薦和預(yù)測(cè)也許比傳統(tǒng)的數(shù)據(jù)分析、數(shù)據(jù)挖掘更有價(jià)值。程學(xué)旗認(rèn)為,大數(shù)據(jù)和金融的結(jié)合是非常有前途的,也許未來還有很多預(yù)想不到的新的模式創(chuàng)新。
大數(shù)據(jù)也在密切影響著金融新浪潮,互聯(lián)網(wǎng)金融的核心在于大數(shù)據(jù),但哪些數(shù)據(jù)對(duì)互聯(lián)網(wǎng)金融可能是有作用的呢?程學(xué)旗認(rèn)為,一個(gè)是通信數(shù)據(jù),包括用戶實(shí)名信息、用戶通訊時(shí)的地理位置信息,以及用戶歷史上產(chǎn)生的事件信息,二是銀行數(shù)據(jù),比如通過手機(jī)支付數(shù)據(jù),還有互聯(lián)網(wǎng)瀏覽日志,比如社交網(wǎng)絡(luò)上的行為日志,三是電商數(shù)據(jù)。通過這些數(shù)據(jù),可以給用戶一個(gè)精準(zhǔn)的畫像,比如年齡、興趣愛好、收入、誠(chéng)信度等。歸類好、組織好這些數(shù)據(jù),最后就能產(chǎn)生價(jià)值。
程學(xué)旗
以下為發(fā)言實(shí)錄:
程學(xué)旗:各位下午好!
我的報(bào)告可能跟整天的報(bào)告不太一樣,我的報(bào)告里可能沒有太多的涉及到跟支付相關(guān)的工作,希望能夠從數(shù)據(jù)以及數(shù)據(jù)處理技術(shù)角度給大家一些參考。
首先,講數(shù)據(jù)的問題。前面講到支付、金融、ONLINE、OFFLINE,核心是數(shù)據(jù),我們首先要理解數(shù)據(jù)來源于哪里,我們把數(shù)據(jù)分成一個(gè)類別,從物理世界產(chǎn)生的數(shù)據(jù),包括地理信息產(chǎn)生的數(shù)據(jù)、物理空間的數(shù)據(jù),還有人與人之間交互的數(shù)據(jù),以及信息空間里的數(shù)據(jù),比如電商產(chǎn)生的數(shù)據(jù),產(chǎn)生了交織關(guān)系,叫做數(shù)據(jù)界,所謂的數(shù)據(jù),來源于哪里呢?存在數(shù)據(jù)界,叫信息世界、物理世界、信息空間。
數(shù)據(jù)是客觀存在的,存在什么呢?它的形式是什么呢?是關(guān)聯(lián)和網(wǎng)絡(luò)化的,在關(guān)聯(lián)和網(wǎng)絡(luò)化數(shù)據(jù)情況下,我們講所謂的大數(shù)據(jù),大數(shù)據(jù)里,在不同領(lǐng)域我們所分析的數(shù)據(jù)對(duì)象本身的特征是不一樣的,比如在金融領(lǐng)域的數(shù)據(jù)和醫(yī)療領(lǐng)域的數(shù)據(jù)其實(shí)在規(guī)模、數(shù)據(jù)類型、數(shù)據(jù)質(zhì)量、數(shù)據(jù)的變化方面本身的特點(diǎn)是不一樣的。我們金融支付大數(shù)據(jù)的時(shí)候,我們不僅僅講大數(shù)據(jù)通用的處理技術(shù),還是要考慮我們這個(gè)領(lǐng)域的大數(shù)據(jù)應(yīng)該用什么技術(shù)處理,能夠把大數(shù)據(jù)的價(jià)值挖掘出來,怎么樣有針對(duì)性的選擇我們的系統(tǒng)、選擇我們的IT技術(shù),把IT價(jià)值挖掘出來。
數(shù)據(jù)價(jià)值是什么呢?在垂直領(lǐng)域里有很多價(jià)值,比如我們做分析、做預(yù)測(cè),比如征信體系的制定,或者做用戶行為的挖掘、信息的推介、產(chǎn)品的推介,我們把這些東西歸成三類,基于大數(shù)據(jù)和數(shù)據(jù)管理,一個(gè)是對(duì)現(xiàn)狀進(jìn)行分析和感知,這是第一類數(shù)據(jù)價(jià)值的利用;第二類,對(duì)未來的趨勢(shì)進(jìn)行預(yù)測(cè)和判斷;第三類,對(duì)現(xiàn)狀感知、對(duì)未來預(yù)測(cè)時(shí)候,我們希望形成一些行為,比如在股市或者在經(jīng)濟(jì)環(huán)境里邊,我們用什么政策、用什么手段能夠讓它往上漲或者往下降,預(yù)測(cè)與決策。感知現(xiàn)在、預(yù)測(cè)未來、決策調(diào)控三大類應(yīng)用,無論在科學(xué)發(fā)現(xiàn),還是智慧政府、智慧城市,包括重大疾病檢測(cè)、網(wǎng)絡(luò)安全以及金融領(lǐng)域,都面臨相對(duì)共性的需求。
大數(shù)據(jù)計(jì)算的挑戰(zhàn)性問題,我們認(rèn)為數(shù)據(jù)有四個(gè)復(fù)雜性,構(gòu)建這樣一個(gè)大的數(shù)據(jù),在社會(huì)、物理和信息空間里交互,交織在一起,互相產(chǎn)生一些演變性的東西,導(dǎo)致我們對(duì)數(shù)據(jù)的度量越來越復(fù)雜。剛才,社科院一位老師講到在金融領(lǐng)域的數(shù)據(jù)大部分是結(jié)構(gòu)化數(shù)據(jù),金融領(lǐng)域目前用的大部分是結(jié)構(gòu)化數(shù)據(jù),其實(shí)還有大量非結(jié)構(gòu)化數(shù)據(jù),只是沒有很好的利用起來。如果把結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)起來一起用,數(shù)據(jù)怎么進(jìn)行度量?比如支付日志數(shù)據(jù)和網(wǎng)上的輿論數(shù)據(jù)和產(chǎn)品競(jìng)爭(zhēng)對(duì)手的情報(bào)數(shù)據(jù)能不能關(guān)聯(lián)起來做綜合分析,這樣的話,直接帶來一個(gè)問題,第一個(gè)問題叫數(shù)據(jù)復(fù)雜性問題。第二個(gè)問題,我們看到的數(shù)據(jù)是多樣的,多樣的數(shù)據(jù),我們要處理的時(shí)候,計(jì)算復(fù)雜性。第三個(gè)問題,數(shù)據(jù)在哪里,我要存下來,比如Paypal的數(shù)據(jù),有智能終端,這些數(shù)據(jù)是不是全傳到數(shù)據(jù)中心里做綜合的設(shè)計(jì)分析,還是在智能終端上直接處理和判斷,尤其是在線上的實(shí)時(shí)交易過程中,數(shù)據(jù)系統(tǒng)怎么構(gòu)建?數(shù)據(jù)的傳輸、數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)的分析以及數(shù)據(jù)在不同終端的應(yīng)用,整個(gè)數(shù)據(jù)體系怎么構(gòu)建,這是系統(tǒng)復(fù)雜性問題。最后一個(gè)問題,基于所謂的數(shù)據(jù)復(fù)雜性度量、復(fù)雜性的優(yōu)化和系統(tǒng)復(fù)雜性的設(shè)計(jì),最后,我們要用數(shù)據(jù)干什么?做預(yù)測(cè),或者做征信,或者做判斷,帶來的是對(duì)數(shù)據(jù)結(jié)果的感知和學(xué)習(xí),叫學(xué)習(xí)復(fù)雜性。我們歸納為四個(gè)復(fù)雜性,進(jìn)一步講所謂的數(shù)據(jù)復(fù)雜性問題,上面有些報(bào)告中講到小微有多大的數(shù)據(jù)量、淘寶有多少數(shù)據(jù)量,數(shù)據(jù)量當(dāng)然是對(duì)數(shù)據(jù)復(fù)雜性的一個(gè)關(guān)鍵要素,但是,它不是唯一要素,數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)是帶來數(shù)據(jù)復(fù)雜一個(gè)更重要的要素,數(shù)據(jù)的復(fù)雜關(guān)聯(lián)和數(shù)據(jù)的聚集變化對(duì)數(shù)據(jù)復(fù)雜性的影響遠(yuǎn)遠(yuǎn)超過多大量的數(shù)據(jù)帶來的數(shù)據(jù)復(fù)雜性的影響。比如在多空間里,在支付寶里,在不同空間,比如在社區(qū)里,比如在新聞里,比如社交媒體里,大家都要用這個(gè)東西,這種行為在不同空間里進(jìn)行數(shù)據(jù)源頭的相互交互,如果我們發(fā)現(xiàn)它的規(guī)則和規(guī)律的話,帶來多數(shù)據(jù)空間模式的判定,這種模式的判定,比單空間復(fù)雜性要大規(guī)模提高,指數(shù)級(jí)的放大,我們做分析和處理的時(shí)候,首先要解決大規(guī)模網(wǎng)絡(luò)模式數(shù)據(jù)復(fù)雜性精簡(jiǎn)的表達(dá)和度量。計(jì)算復(fù)雜性,在金融支付領(lǐng)域,最大的是流式數(shù)據(jù)計(jì)算,如果在很短做決策,所有數(shù)據(jù)傳輸過來之后快速地做決策,不僅僅是基于當(dāng)前流過來的數(shù)據(jù),還有歷史上的數(shù)據(jù),帶來計(jì)算處理模式上的難點(diǎn),現(xiàn)在有各種處理軟件,由于計(jì)算機(jī)體系結(jié)構(gòu)的限制,使得計(jì)算過程中沒辦法實(shí)時(shí)精準(zhǔn)的計(jì)算流式數(shù)據(jù)的規(guī)則,我們需要給出一種基于全模態(tài)流式數(shù)據(jù)的簡(jiǎn)約計(jì)算與增量計(jì)算方法,在當(dāng)前的領(lǐng)域里還沒有成熟的技術(shù)。系統(tǒng)復(fù)雜性,大部分看作后臺(tái)日志,更多的只考慮傳輸,存下來之后,分析時(shí)候時(shí)拿存下來的數(shù)據(jù)進(jìn)行處理,現(xiàn)在系統(tǒng)處理架構(gòu)把存儲(chǔ)、感知、計(jì)算分離,存儲(chǔ)、感知、計(jì)算分離,導(dǎo)致大量數(shù)據(jù)存下來之后在線上的價(jià)值利用比較有限,在這種情況下,能不能從感知存儲(chǔ)計(jì)算變成流式全生命周期新的系統(tǒng)架構(gòu),這種新的系統(tǒng)架構(gòu)要考慮到系統(tǒng)自身存儲(chǔ)計(jì)算資源的調(diào)度和實(shí)時(shí)響應(yīng)能力。學(xué)習(xí)復(fù)雜性,更多的是從數(shù)據(jù)里面挖掘知識(shí),從知識(shí)推斷出結(jié)論。在大數(shù)據(jù)里面臨的挑戰(zhàn)是什么?一是要認(rèn)識(shí)數(shù)據(jù)的內(nèi)在規(guī)律,二是對(duì)數(shù)據(jù)的復(fù)雜性要進(jìn)行新的度量,在此基礎(chǔ)上,數(shù)據(jù)在哪里?怎么感知?這是第一個(gè)階段,叫數(shù)據(jù)感知,數(shù)據(jù)拿來之后在哪里存?怎么查詢?叫存儲(chǔ)管理,還有怎么判斷?怎么決策?怎么做出像征信這樣的處理?這是計(jì)算推斷的問題。
剛才,對(duì)數(shù)據(jù)進(jìn)行了一些思考,涉及到的技術(shù)是哪些呢?從文件到對(duì)數(shù)據(jù)的查詢,還有其它各種高級(jí)的技術(shù),比如數(shù)據(jù)的分析、挖掘?;ヂ?lián)網(wǎng)領(lǐng)域、電商領(lǐng)域是大規(guī)模的數(shù)據(jù),在金融領(lǐng)域是非常大規(guī)模的數(shù)據(jù),比如國(guó)內(nèi)技術(shù)到底應(yīng)用到什么程度?進(jìn)展到什么程度?這是中國(guó)計(jì)算機(jī)協(xié)會(huì)大數(shù)據(jù)專家委員會(huì)每年會(huì)投票,這是去年年底對(duì)2014年大數(shù)據(jù)發(fā)展技術(shù)方面的預(yù)測(cè),這個(gè)月底下個(gè)月初會(huì)發(fā)展2015年大數(shù)據(jù)發(fā)展技術(shù)預(yù)測(cè),跟大家分享一下我們?nèi)ツ甑念A(yù)測(cè),看看目前的技術(shù)處理到了什么手段。
第一,應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)價(jià)值。第二,大數(shù)據(jù)處理的架構(gòu)是多樣化的,包括類似Hadoop、MapReduce這樣的體系,多模式并存對(duì)目前數(shù)據(jù)處理架構(gòu)帶來一種新的挑戰(zhàn),結(jié)構(gòu)化數(shù)據(jù)是一種模式,非結(jié)構(gòu)化數(shù)據(jù)是模式,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)結(jié)合是一種模式,文本數(shù)據(jù)和語(yǔ)音數(shù)據(jù)、音頻數(shù)據(jù)怎么結(jié)合,我們很難用單一結(jié)構(gòu)處理這樣的數(shù)據(jù),目前狀況是多種架構(gòu)共同解決一個(gè)問題,比如關(guān)于查詢的問題,關(guān)于判定的問題,關(guān)于預(yù)測(cè)的問題,多家融合處理。第三,安全和隱私,在金融領(lǐng)域是一個(gè)非常重要的問題,無論是監(jiān)管,還是個(gè)人隱私,還是商業(yè)機(jī)密,還是數(shù)據(jù)從數(shù)據(jù)權(quán)屬角度講,這是非常重要的問題,今年您出的時(shí)候,國(guó)務(wù)院報(bào)告里提到一個(gè)很重要的方面,比如在線金融支付的安全問題,實(shí)際上傳統(tǒng)金融一樣存在安全問題,大數(shù)據(jù)帶來的價(jià)值和便利的同時(shí),安全的問題也可能是非常關(guān)鍵的問題,目前,從技術(shù)手段來講,可能還沒有從理論上證明是完備性的手段,關(guān)于安全隱私問題是我們需要重點(diǎn)關(guān)注的。數(shù)據(jù)分析與可視化,還有數(shù)據(jù)本身的共享,在座有很多金融界的大公司,自己有很多數(shù)據(jù),支付是不是只有靠大公司才能真正做的起來呢?我們有大量第三方數(shù)據(jù)分析,可不可以利用我們的數(shù)據(jù)做三次價(jià)值放大,能不能通過某種程度有償?shù)臄?shù)據(jù)共享實(shí)現(xiàn)這個(gè)行業(yè)生態(tài)更大規(guī)模的發(fā)展,構(gòu)建更好的生態(tài)體系,這是特別需要重點(diǎn)關(guān)注的一個(gè)問題。技術(shù)問題,基于大數(shù)據(jù)的金融產(chǎn)品的推薦,基于大數(shù)據(jù)發(fā)展態(tài)勢(shì)的預(yù)測(cè)等等,推薦和預(yù)測(cè)也許比傳統(tǒng)的數(shù)據(jù)分析、數(shù)據(jù)挖掘更有價(jià)值,這是非常有前途的技術(shù)。深度學(xué)習(xí)和智能處理,包括行為的深度挖掘和學(xué)習(xí),包括用戶畫像,涉及到一系列算法層面的學(xué)習(xí)和智能技術(shù),當(dāng)然,還有數(shù)據(jù)規(guī)則問題,最后是生態(tài)問題,移動(dòng)互聯(lián)網(wǎng)帶來的大數(shù)據(jù)生態(tài)逐步擴(kuò)大的問題。我們說了十個(gè)問題,原來我們并不是完全針對(duì)金融或者針對(duì)支付這個(gè)小的垂直領(lǐng)域說的,剛才,聽了大家發(fā)言之后,我覺得那十個(gè)問題在我們這個(gè)領(lǐng)域一樣存在,我們做數(shù)據(jù)處理是為搞工具的人提供工具和平臺(tái)支持的,搞IT的人一直在想辦法解決這些問題,但是,如果沒有跟具體領(lǐng)域需求和數(shù)據(jù)結(jié)合的話,我們提的觀點(diǎn)和問題可能永遠(yuǎn)解決不了,永遠(yuǎn)被可能被我們的領(lǐng)域所使用,包括隱私的問題、預(yù)測(cè)的問題、可視化的問題。我們講的十個(gè)問題在金融領(lǐng)域如果能夠結(jié)合起來,將產(chǎn)生重要的價(jià)值。從分析角度來講,深度學(xué)習(xí),只是鏈接,社會(huì)計(jì)算,強(qiáng)可視化,對(duì)數(shù)據(jù)價(jià)值進(jìn)一步產(chǎn)生提升的分析技術(shù)。
最后,舉幾個(gè)例子,在中國(guó)當(dāng)前領(lǐng)域里,在產(chǎn)業(yè)上能看到的比較大的有前途的大數(shù)據(jù)應(yīng)用領(lǐng)域里,包括網(wǎng)絡(luò)、電信網(wǎng)絡(luò)和互連網(wǎng)絡(luò),網(wǎng)絡(luò)大數(shù)據(jù)、金融大數(shù)據(jù)、健康醫(yī)療、企業(yè)管理、政府管理和安全,首先,數(shù)據(jù)規(guī)模比較大,其次,基礎(chǔ)比較大,金融排第二位,金融放大體量也許排第一位。大數(shù)據(jù)和金融的結(jié)合是非常有前途的,也許未來還有很多預(yù)想不到的新的模式創(chuàng)新。
再舉一些具體的例子,比如金融大數(shù)據(jù)和互聯(lián)網(wǎng)金融,比如基于數(shù)據(jù)的征信、支付、風(fēng)控、投資和危機(jī)預(yù)警?;ヂ?lián)網(wǎng)金融,前面已經(jīng)有些專家講到互聯(lián)網(wǎng)金融和大叔據(jù)金融到底是什么關(guān)系?互聯(lián)網(wǎng)金融的核心在于大數(shù)據(jù),到底是哪些數(shù)據(jù)呢?我嘗試進(jìn)行了歸納,不見得一個(gè)公司能夠拿到所有數(shù)據(jù),但是,這些數(shù)據(jù)對(duì)互聯(lián)網(wǎng)金融可能是有作用的,一個(gè)是通信數(shù)據(jù),包括用戶實(shí)名信息、用戶通訊時(shí)的地理位置信息,以及用戶歷史上產(chǎn)生的事件信息,這是通信數(shù)據(jù),還有銀行數(shù)據(jù),比如通過手機(jī)支付數(shù)據(jù),還有互聯(lián)網(wǎng)瀏覽日志,比如社交網(wǎng)絡(luò)上的行為日志,還有電商數(shù)據(jù),這些數(shù)據(jù)怎么使用呢?通過這些數(shù)據(jù),可以給用戶一個(gè)精準(zhǔn)的畫像,比如年齡、興趣愛好、收入、誠(chéng)信度,比如我們有一個(gè)例子,比如不知道一個(gè)人銀行對(duì)象,也許取他最親密50個(gè)朋友的中值就能了解到他個(gè)人大概的畫像數(shù)據(jù),什么意思呢?這個(gè)人是不是誠(chéng)實(shí)可靠,他50個(gè)朋友如果誠(chéng)實(shí)可靠,這個(gè)人也可能就誠(chéng)實(shí)親靠,我們不僅僅看交易數(shù)據(jù),不僅僅看銀行存多少錢,以及有多少不動(dòng)產(chǎn),還要看行為、社交,看日常活動(dòng)就可以推導(dǎo)出另外的一些數(shù)據(jù)。怎么樣歸類好、組織好?最后產(chǎn)生價(jià)值,營(yíng)銷、信貸、信用,包括風(fēng)險(xiǎn)管理,比如陸金所講的風(fēng)險(xiǎn)有6%,如果把更多的數(shù)據(jù)利用起來的時(shí)候,是不是降低為3%?比反過去催款可能更有價(jià)值,把更多的數(shù)據(jù)比較好的用起來,這是一方面。
在線推薦,Qzone流量變現(xiàn)平臺(tái)“廣點(diǎn)通”,無論廣告推薦,還是產(chǎn)品營(yíng)銷,還是用戶的朋友推薦,比如用戶畫像的問題,比如基本屬性、愛好、用戶在網(wǎng)絡(luò)上面的行為、用戶當(dāng)前的狀態(tài)等等,這些數(shù)據(jù)都可以通過ONLINE的數(shù)據(jù)來畫像,可以跟通訊行為的數(shù)據(jù)結(jié)合起來。下面的幾個(gè)例子是我們自己做的,一個(gè)例子是病毒式營(yíng)銷,什么叫病毒式營(yíng)銷呢?我們把一個(gè)產(chǎn)品推廣出去的時(shí)候,一種做法是在中央電視臺(tái)打廣告,尤其是新聞聯(lián)播的時(shí)候,多少人同時(shí)看,這是一種推銷模式。另外一種模式是在社交網(wǎng)絡(luò)里通過點(diǎn)對(duì)點(diǎn)的傳播,其實(shí)小米的營(yíng)銷就是典型的病毒式營(yíng)銷方法,不是找一個(gè)很大的集中式的媒體往外擴(kuò)散,而是通過人對(duì)人口舌相傳的模式進(jìn)行營(yíng)銷,這種營(yíng)銷也有成本問題,在中央電視臺(tái)打廣告時(shí)候,可能一個(gè)億、兩個(gè)億,占黃金時(shí)段多少秒。影響力最大化,從計(jì)算角度來講,它是什么問題呢?是典型的組合爆炸問題,如果一億人之間進(jìn)行點(diǎn)對(duì)點(diǎn)傳播的話,找到最優(yōu)傳播路徑是很難的,大家做的基本是近似性算法,花很高高價(jià)擴(kuò)散,最后可能沒有達(dá)到理想的覆蓋度,在全局和局部之間怎么做優(yōu)化判定的問題,在靜態(tài)、動(dòng)態(tài)之間做一個(gè)平衡型建模,使得算法可依提高一千倍,比傳統(tǒng)經(jīng)典算法可依提高三個(gè)數(shù)量級(jí),可以快速找到最有影響力的人,在快速時(shí)間內(nèi)把你的價(jià)值和產(chǎn)品推銷出去。
功勞分配,投入資本,回收利潤(rùn)的時(shí)候,投入多少資本回收多少利潤(rùn),很簡(jiǎn)單,有人投入資金,有人投入智慧,有人投入平臺(tái),這些人投在一起的時(shí)候,最后收益怎么分給大家?我們提前制定一個(gè)協(xié)議,你5%,他8%,拍腦袋也許是一種做法。能不能利用更加科學(xué)合理的辦法進(jìn)行判定,這是很有意思的問題,馬克思講勞動(dòng)分配是我們的三大基本關(guān)系,從數(shù)據(jù)上也能發(fā)現(xiàn)一個(gè)有意思的新問題,從論文發(fā)表的角度來看,現(xiàn)在科學(xué)論文、技術(shù)論文發(fā)表的時(shí)候,現(xiàn)在有特別多的作者,好多作者一起寫一篇文章,排第一的貢獻(xiàn)大?還是排第二的貢獻(xiàn)大?很難說,早期寫論文的時(shí)候,不需要分配,一個(gè)人搞定,功勞、利益一個(gè)人得,現(xiàn)在合作越來越多,以諾貝爾獎(jiǎng)為例,2007年諾貝爾獎(jiǎng)、1997年諾貝爾獎(jiǎng)和2012年諾貝爾獎(jiǎng),獲獎(jiǎng)?wù)撐氖沁@樣幾篇文章,有第一作者的,有最后作者的,有第三個(gè)作者的,文章獲獎(jiǎng)了,誰(shuí)的貢獻(xiàn)是最大的?隨機(jī)一看好象是擲篩子的過程,沒有任何規(guī)律,怎么讓分配或者貢獻(xiàn)的評(píng)價(jià)更加科學(xué)合理,現(xiàn)在的辦法要么均分,要么按照所謂固定的約定規(guī)則來做,比如企業(yè)發(fā)展初期,可能資本是第一位的,企業(yè)發(fā)展的第二階段,可能平臺(tái)是第一位的,到第三階段,可能市場(chǎng)是第一位的,最后上市的時(shí)候,很難說誰(shuí)的貢獻(xiàn)大。我們提出一個(gè)新的階段,涌現(xiàn)只能與群體決策,通過社會(huì)決策給公平合理的分配。我們預(yù)測(cè)諾貝爾獎(jiǎng)獲得者,標(biāo)志宏觀的都是預(yù)測(cè)對(duì)的,對(duì)一百年來以來諾貝爾化學(xué)獎(jiǎng)和物理獲得者進(jìn)行預(yù)測(cè),準(zhǔn)確率在86%,比如這篇文章中最后一個(gè)作者獲獎(jiǎng),有些文章中的第一名作者獲獎(jiǎng)了,利用群體智慧進(jìn)行判定。
大家知道,政治也是一種期貨,我們做大選預(yù)測(cè)的時(shí)候,尤其是西方國(guó)家一些財(cái)團(tuán)到底支持誰(shuí),預(yù)測(cè)誰(shuí)能當(dāng)選的問題是非常有意思的問題,對(duì)每一個(gè)選舉人的政治觀點(diǎn)、經(jīng)濟(jì)觀點(diǎn)、歷史上各方面情況做分析,也許是非常復(fù)雜的問題,你可能拿一千個(gè)特征做判定,最后可能只能選擇因素里1%,你不知道哪個(gè)因素決定了他能當(dāng)選,你不知道哪個(gè)因素決定他能比另外一個(gè)當(dāng)選者搞一個(gè)百分點(diǎn)、兩個(gè)百分點(diǎn)。這時(shí)候怎么辦?從數(shù)據(jù)角度看這個(gè)問題,先不管這些人到底是什么經(jīng)濟(jì)政策、什么外交政策、什么政治理念,我們就看他在網(wǎng)民中的口碑如何,通過口碑直接判定。包括我們預(yù)測(cè)臺(tái)灣、美國(guó)的,準(zhǔn)確率基本在99%,很簡(jiǎn)單,用社會(huì)媒體的數(shù)據(jù)直接做決策,不對(duì)候選人做經(jīng)濟(jì)、政治方面能力做分析,只對(duì)網(wǎng)民對(duì)他的傾向性進(jìn)行預(yù)測(cè)。另外,我們做股票預(yù)測(cè),我們做了兩個(gè)事情:一方面,我們跟結(jié)算中心合作時(shí)候的例子,哪些股票是被操縱的?就是內(nèi)幕交易,莊家操縱,如果利用結(jié)構(gòu)化數(shù)據(jù)測(cè)算很難挖掘出這個(gè)是被操縱的,只能看到股票突然上去了、突然下去了,我們往往找人談話有沒有涉及到欺詐、不對(duì)稱信息披露等等,事后破案性的分析很難對(duì)這個(gè)問題做有價(jià)值的科學(xué)判定,我們直接針對(duì)交易網(wǎng)絡(luò),交易網(wǎng)絡(luò)其實(shí)可以揭示操縱行為,我們發(fā)現(xiàn)一個(gè)很有意思的問題,在股票交易網(wǎng)絡(luò)里面,股票交易往往在節(jié)點(diǎn)強(qiáng)度和頻度之間是隨機(jī)性的,頻度和強(qiáng)度往往是隨機(jī)變化的,帶來的是線性關(guān)系,沒有被操縱的股票是線性關(guān)系;在右圖中,如果一支股票被操縱,交易量和交易頻度之間產(chǎn)生非線性關(guān)系,只要一發(fā)生,基本判定是非常準(zhǔn)確的,可以通過交易相關(guān)度做判定。另外,對(duì)股價(jià)做預(yù)測(cè),這是所有人關(guān)心的問題,華爾街幾千個(gè)數(shù)學(xué)家做這個(gè)事情,用各種模型做組合,像投票大選預(yù)測(cè)一樣,也存在這個(gè)問題,對(duì)股價(jià)做預(yù)測(cè),正常情況下,是連續(xù)變化,非正常情況下是離散變化,比如能源股的變化,如果哪個(gè)地方出了颶風(fēng)或者亞丁灣出現(xiàn)什么事情或者政治事件,比如中東發(fā)生一個(gè)政治事件,股價(jià)立馬變成跳躍性變化,能不能提前預(yù)測(cè)到?這是很重要的問題,比如結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)加上各種政治因素、軍事因素影響,很多人做組合因素分析,有一種分析是直接對(duì)股民情緒進(jìn)行判定,這是我們對(duì)中國(guó)市場(chǎng)分析的結(jié)果,中國(guó)90%是散戶,往往帶有情緒化,他往往在網(wǎng)絡(luò)空間里把自己的想法說出來,投票之前先告訴別人他要怎么出手,匯集所有信息之后,我們只對(duì)網(wǎng)上股民信息情緒做分析,可以對(duì)股價(jià)的走勢(shì)進(jìn)行漲跌的判定。我們對(duì)一支股票上證指數(shù)的預(yù)測(cè),基本提前三天,越往后預(yù)測(cè),股票價(jià)格預(yù)測(cè)不準(zhǔn)確了,但是走勢(shì)還是相對(duì)比較清晰的,為什么對(duì)價(jià)格預(yù)測(cè)不準(zhǔn)確呢?因?yàn)槲覀兏緵]有用結(jié)構(gòu)化數(shù)據(jù),比如這支股票現(xiàn)在多少錢,我根本沒有用這個(gè)數(shù),完全用股民情緒化數(shù)據(jù)做預(yù)測(cè),至少對(duì)漲跌可以作出否終程度的預(yù)測(cè),結(jié)果是什么?有了這些數(shù)據(jù)之后,有了多元異構(gòu)數(shù)據(jù)之后,也許還有新的商業(yè)模式的創(chuàng)新,這是我的建議,謝謝大家!