作為集團(tuán)“大數(shù)據(jù)平臺(tái)技術(shù)”戰(zhàn)略研究的準(zhǔn)備工作,本文梳理了近年來(lái)作者觀測(cè)到的大數(shù)據(jù)行業(yè)技術(shù)演進(jìn)的路徑,希望把握發(fā)展脈絡(luò),找到適合公司業(yè)務(wù)實(shí)際的方向。文章力求用通俗的方式描述概念,最大程度減少專業(yè)圖表與細(xì)節(jié),以便向公司管理層與業(yè)務(wù)部門同事介紹大數(shù)據(jù)平臺(tái)技術(shù)的發(fā)展與趨勢(shì),這里分享給金融行業(yè)的朋友參考。
數(shù)據(jù)技術(shù)演進(jìn)
軟件系統(tǒng),小到HelloWorld編程入門,大到數(shù)億人同時(shí)使用的社交軟件、搜索引擎,或者是基于公有云的軟件即服務(wù)(SaaS),本質(zhì)上都是在處理兩件事情:業(yè)務(wù)邏輯與數(shù)據(jù)。隨著信息時(shí)代的縱深發(fā)展,業(yè)務(wù)邏輯不斷豐富與演化的同時(shí),其所產(chǎn)生與處理的數(shù)據(jù)量(Volume)也出現(xiàn)指數(shù)級(jí)的迅速增長(zhǎng),業(yè)務(wù)所要求的系統(tǒng)處理速度(Velocity)從批量向準(zhǔn)實(shí)時(shí)與實(shí)時(shí)過(guò)度,數(shù)據(jù)的種類(Variety)也從簡(jiǎn)單的結(jié)構(gòu)化的記錄向文本、語(yǔ)音、圖像視頻等豐富的形式發(fā)展。這就是大數(shù)據(jù)的三個(gè)最典型的特征。
傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)處理過(guò)程是:在線交易系統(tǒng)(OLTP,通常是關(guān)系型數(shù)據(jù)庫(kù))產(chǎn)生的數(shù)據(jù),經(jīng)過(guò)Federation/ETL工具整合清洗后,加載到在線分析系統(tǒng)(OLAP,通常是數(shù)據(jù)倉(cāng)庫(kù)、BI與統(tǒng)計(jì)分析),然后生成報(bào)表或統(tǒng)計(jì)模型。大數(shù)據(jù)的三個(gè)V對(duì)吞吐量、響應(yīng)時(shí)間的要求都超越了這個(gè)成熟的模式的技術(shù)上限。因而催生了大量的能處理海量數(shù)據(jù)的新框架。
這些新框架沿著兩個(gè)思路解決吞吐量與響應(yīng)時(shí)間的問(wèn)題:垂直擴(kuò)展(scale up)或 水平擴(kuò)展(scale out)。垂直擴(kuò)展門檻高,技術(shù)為IBM之類的大公司所壟斷,而水平擴(kuò)展則門檻相對(duì)較低,以源自Google公司的Map Reduce為代表,在開(kāi)源的推動(dòng)下迅速普及。著名的Apache Hadoop就是此類技術(shù)的代表,具備強(qiáng)大的生命力。
這些新框架多來(lái)自程序社區(qū),其繁榮一度讓人們覺(jué)得可以淘汰數(shù)據(jù)社區(qū)SQL那套技術(shù)體系。隨著多種NoSQL 數(shù)據(jù)庫(kù)的廣泛應(yīng)用,人們發(fā)現(xiàn),數(shù)據(jù)的一致性,可用性與并行性三者不是可以同時(shí)獲得的,強(qiáng)化其中之一是以弱化另外一個(gè)要素為代價(jià)的。而且編程方式的數(shù)據(jù)使用缺乏一致的標(biāo)準(zhǔn),造成諸多問(wèn)題。因而,程序社區(qū)與數(shù)據(jù)社區(qū)的逐步融合成為趨勢(shì)選擇,NoSQL 發(fā)展成 Not Only Sql, 再到 NewSQL, 水平擴(kuò)展的新型數(shù)據(jù)處理框架獲得了標(biāo)準(zhǔn)化的SQL訪問(wèn)界面。
在很多場(chǎng)景下,分而治之的方式可以解決吞吐量的問(wèn)題,單位時(shí)間內(nèi),增加更多的機(jī)器,可以增加處理的數(shù)據(jù)量,Volume的問(wèn)題得到解決。而系統(tǒng)對(duì)于處理速度的不懈追求,則可以通過(guò)不斷拉近數(shù)據(jù)與處理器(CPU)的距離得到滿足,磁帶到硬盤,硬盤到SSD,SSD 到 Flash, Flash到內(nèi)存,內(nèi)存到一二級(jí)Cache, 再到寄存器。從內(nèi)存數(shù)據(jù)庫(kù)到分布式Cache,再到Spark, 處理同等量的數(shù)據(jù)越來(lái)越快。
處理多樣性數(shù)據(jù)的系統(tǒng)也在與時(shí)俱進(jìn),對(duì)應(yīng)數(shù)倉(cāng)/BI時(shí)期的多媒體內(nèi)容管理系統(tǒng),多是以描述這些多媒體內(nèi)容的元數(shù)據(jù)作為索引,訪問(wèn)鏈接到這些內(nèi)容數(shù)據(jù)。新分布式大數(shù)據(jù)處理框架下,則引入了文本分析,語(yǔ)音圖像的機(jī)器學(xué)習(xí)以至深度學(xué)習(xí)技術(shù)來(lái)“認(rèn)識(shí)”這些內(nèi)容,而不是簡(jiǎn)單的存儲(chǔ)與訪問(wèn)?;诨ヂ?lián)網(wǎng)海量?jī)?nèi)容的知識(shí)圖譜的構(gòu)建也有大幅度進(jìn)步。
Fintech數(shù)據(jù)處理
金融,一直是數(shù)據(jù)系統(tǒng)的重量級(jí)應(yīng)用行業(yè),信息化早,程度也高。隨著IBM ORACLE等巨頭在該行業(yè)深耕多年,金融機(jī)構(gòu)大多在傳統(tǒng)的數(shù)據(jù)體系上有了較為完備的建設(shè)。OLTP交易系統(tǒng)、數(shù)據(jù)同步、整合與治理、數(shù)據(jù)倉(cāng)庫(kù)/集市、BI 報(bào)表與統(tǒng)計(jì)分析,是相對(duì)完善的。不少的企業(yè)還實(shí)現(xiàn)了內(nèi)容管理系統(tǒng)的建設(shè)使用。
互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)上面構(gòu)筑的數(shù)據(jù)資產(chǎn)壁壘,開(kāi)發(fā)利用后獲取的競(jìng)爭(zhēng)優(yōu)勢(shì),讓傳統(tǒng)的金融企業(yè),特別是那些坐擁億萬(wàn)客戶資源的金融企業(yè),開(kāi)始意識(shí)到大數(shù)據(jù)帶來(lái)的價(jià)值以及潛在的驅(qū)動(dòng)與變革力量,逐步重視積累與發(fā)掘利用大數(shù)據(jù)資產(chǎn),籍此提升企業(yè)的科技能力,獲取行業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)。“數(shù)據(jù)陽(yáng)光”就是陽(yáng)光保險(xiǎn)集團(tuán)高瞻遠(yuǎn)矚的重要戰(zhàn)略。
金融行業(yè)服從嚴(yán)格的數(shù)據(jù)安全與監(jiān)管,對(duì)數(shù)據(jù)一致性近乎苛求。因而傳統(tǒng)的金融數(shù)據(jù)體系以可靠性與一致性為原則構(gòu)建,強(qiáng)調(diào)事務(wù)處理,其中涉及到的分布系統(tǒng)也都具備兩階段提交(2PC)等分布式事務(wù)能力。起源于互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)處理框架,則多選擇放松處理過(guò)程中的一致性要求,提升系統(tǒng)并行能力與性能,僅追求最終一致性。因而在金融數(shù)據(jù)體系中,分析型的系統(tǒng)相對(duì)交易系統(tǒng),更適合采用這些框架。
風(fēng)險(xiǎn)控制是金融企業(yè)核心能力,風(fēng)控與征信變成金融大數(shù)據(jù)的主場(chǎng)景。獲取足夠的用戶行為數(shù)據(jù),建立合理的評(píng)估模型,有助于企業(yè)在用戶金融活動(dòng)的整個(gè)生命周期規(guī)避風(fēng)險(xiǎn),提升服務(wù)水平?,F(xiàn)行的金融技術(shù)體系,無(wú)法從技術(shù)上確保交易主體間的相互信任,需要依賴第三方征信主體參與,而鑒于數(shù)據(jù)碎片化、交易壁壘與隱私保護(hù)等因素,基于大數(shù)據(jù)的征信,目前以至未來(lái)很長(zhǎng)時(shí)間,還有較大的改進(jìn)空間。
區(qū)塊鏈技術(shù)的繁榮,以及與金融科技的逐步融合,有巨大的潛力改變現(xiàn)有的金融數(shù)據(jù)體系。區(qū)塊鏈被認(rèn)為是技術(shù)保證信任的價(jià)值網(wǎng)絡(luò),或者說(shuō)是業(yè)務(wù)互聯(lián)網(wǎng)。業(yè)務(wù)實(shí)體可以相互信任的處理之間的金融交易,而無(wú)需中心征信機(jī)構(gòu)的參與。鏈上的數(shù)據(jù)以加密方式參與分布式事務(wù)/容錯(cuò)(Paxos/PBFT),確保不可篡改的一致性。強(qiáng)的分布式與一致性,需以犧牲系統(tǒng)性能為代價(jià),因而較為適合替代現(xiàn)有金融系統(tǒng)中的數(shù)據(jù)骨干網(wǎng)絡(luò)。而對(duì)于類似每秒10幾萬(wàn)次交易的支付系統(tǒng)則是不適合的。
云支撐大數(shù)據(jù)
大數(shù)據(jù)是資源密集型的系統(tǒng),對(duì)于存儲(chǔ)、計(jì)算、網(wǎng)絡(luò)等核心IT資源需求強(qiáng)勁,自然成為云計(jì)算最佳支撐領(lǐng)域。目前主流的云平臺(tái)都配有自成體系的大數(shù)據(jù)系統(tǒng),滿足企業(yè)大數(shù)據(jù)處理端到端的需求,也就是從數(shù)據(jù)采集獲取、同步加載、整合清洗、安全管控、分析建模、可視化、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)一整套支撐工具與系統(tǒng)。多數(shù)基于開(kāi)源的體系定制并優(yōu)化,典型的如亞馬遜AWS 上的EMR,微軟Azure上的HDInsight等, 都基于Apache Hadoop。 這些能力通常具有非常強(qiáng)的伸縮性,多租戶共享,適應(yīng)企業(yè)忙時(shí)閑時(shí)的不同需求,并且按照用量計(jì)費(fèi),用多少付多少費(fèi)用。這些系統(tǒng)和工具多以平臺(tái)即服務(wù)(PaaS)+ 設(shè)施即服務(wù)(IaaS)方式在公有云上提供。
考慮到不少企業(yè),特別是金融企業(yè)的數(shù)據(jù)體系,具有非常強(qiáng)的數(shù)據(jù)安全與監(jiān)管要求,不少云平臺(tái)提供商將其公有云上的數(shù)據(jù)能力,也整合打包到其相應(yīng)的私有云商業(yè)軟件套件之中,例如微軟私有云套件,阿里云私有云中的大數(shù)據(jù)平臺(tái)等。這些商業(yè)軟件套件按照企業(yè)用戶的要求,部署到企業(yè)自建自營(yíng)的數(shù)據(jù)中心中,提供類似公有云上的端到端的數(shù)據(jù)能力。企業(yè)用戶獲得了對(duì)平臺(tái)、對(duì)數(shù)據(jù)自主控制的能力,損失了相應(yīng)的彈性與及時(shí)更新。
云計(jì)算技術(shù)已進(jìn)入普及階段,寡頭產(chǎn)生。國(guó)際巨頭亞馬遜、微軟、IBM紛紛落地中國(guó),阿里,騰訊等幾家云計(jì)算也強(qiáng)勢(shì)崛起。這些主流的云平臺(tái)除了提供通用的大數(shù)據(jù)能力之外,還紛紛針對(duì)金融企業(yè)的特殊性推出相應(yīng)的金融云服務(wù),這里包括金融業(yè)務(wù)系統(tǒng)以及相應(yīng)的數(shù)據(jù)保護(hù)、安全防攻擊等等,不同層級(jí)的軟硬件隔離或共享的策略,滿足不同的安全意愿。相應(yīng)的服務(wù)日趨健全,例如新籌建保險(xiǎn)公司,金融云可以與籌建團(tuán)隊(duì)一起滿足保監(jiān)會(huì)在IT與數(shù)據(jù)層面的籌建要求。
目前國(guó)內(nèi)大型企業(yè)多采用公有云與私有云相結(jié)合的混合云方式,將核心的數(shù)據(jù)系統(tǒng)控制在自家的數(shù)據(jù)中心中,將部分前端業(yè)務(wù)系統(tǒng)與外圍業(yè)務(wù)系統(tǒng)部署到公有云上,以獲取一定的彈性與靈活性,節(jié)約成本。
從技術(shù)層面講,目前主流云平臺(tái)多以提供資源的虛擬化為基礎(chǔ),將存儲(chǔ)、CPU、內(nèi)存、網(wǎng)絡(luò)以虛擬機(jī)或容器的方式實(shí)現(xiàn)邏輯隔離,基于邏輯上的隔離共享與調(diào)度支持上層的數(shù)據(jù)處理體系,如數(shù)據(jù)倉(cāng)庫(kù)、分布式大數(shù)據(jù)框架(Hadoop, Spark等)、機(jī)器學(xué)習(xí)模型與算法等。并且依據(jù)大數(shù)據(jù)應(yīng)用負(fù)載的不同,針對(duì)計(jì)算密集,磁盤IO密集或網(wǎng)路IO密集的不同特點(diǎn),做不同的優(yōu)化,甚至拋開(kāi)虛擬化,直接在硬件系統(tǒng)上部署大數(shù)據(jù)框架。
人工智能平臺(tái)
年過(guò)半百的人工智能,經(jīng)歷兩次發(fā)展低谷到近十年來(lái)再次爆發(fā),與大數(shù)據(jù)在深度與廣度上的積累,以及相關(guān)處理技術(shù)的長(zhǎng)足進(jìn)步密不可分。人工智能依賴機(jī)器學(xué)習(xí),垂直領(lǐng)域不斷豐富的數(shù)據(jù)積累,為機(jī)器學(xué)習(xí)提供了原材料;開(kāi)源的水平擴(kuò)展的大數(shù)據(jù)框架為各種復(fù)雜的機(jī)器學(xué)習(xí)算法提供了價(jià)格低廉的算力,從而推動(dòng)了人工智能在包括搜索、廣告、語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)音理解等等領(lǐng)域的質(zhì)的飛躍。
機(jī)器學(xué)習(xí)就是發(fā)現(xiàn)用來(lái)學(xué)習(xí)的數(shù)據(jù)集里面隱含的規(guī)律的過(guò)程,簡(jiǎn)單情況下,可以將這種隱含的規(guī)律描述為某種數(shù)學(xué)函數(shù),給定某些輸入,可以得到某些輸出。但大部分時(shí)候,機(jī)器學(xué)習(xí)的結(jié)果無(wú)法直觀表達(dá)為函數(shù),而是一個(gè)可以運(yùn)行的計(jì)算模型,從此種意義上看,是數(shù)據(jù)產(chǎn)生了程序邏輯,以前這些邏輯只能由程序員編碼實(shí)現(xiàn)。目前這些機(jī)器學(xué)出來(lái)的模型廣泛應(yīng)用在許多不同領(lǐng)域,來(lái)做分群、分類或者預(yù)測(cè)。
作為機(jī)器學(xué)習(xí)的一個(gè)重要前沿分支,深度學(xué)習(xí)技術(shù)在語(yǔ)音與圖像識(shí)別、自然語(yǔ)言處理,概念與內(nèi)容理解等方面帶來(lái)實(shí)質(zhì)性重大技術(shù)進(jìn)步,已成為大數(shù)據(jù)價(jià)值轉(zhuǎn)化商業(yè)財(cái)富的有效手段。Google,微軟,F(xiàn)acebook,百度等科技巨頭在深度學(xué)習(xí)領(lǐng)域持續(xù)取得進(jìn)展,研發(fā)成果也以開(kāi)源的方式分享出來(lái),例如Google的Tensorflow, 微軟的CNTK 等優(yōu)秀的深度學(xué)習(xí)框架,以及海量的標(biāo)注數(shù)據(jù)。這些工具對(duì)Hadoop, Spark等開(kāi)源大數(shù)據(jù)框架提供了良好支持,顯著降低了企業(yè)應(yīng)用深度學(xué)習(xí)的門檻。
作為機(jī)器學(xué)習(xí)成果的綜合試驗(yàn)場(chǎng),移動(dòng)設(shè)備上的智能聊天機(jī)器人(或稱私人助手)大熱。蘋(píng)果Siri, Google Now, 微軟Cortana都可以學(xué)習(xí)用戶行為習(xí)慣,理解語(yǔ)義語(yǔ)境,與用戶人機(jī)對(duì)話。這些聊天機(jī)器人吸引并沉淀了大量用戶,成為新的人機(jī)交互入口。Facebook,Google與微軟更是順勢(shì)推出 Bot Engine/Bot Framework等機(jī)器人引擎,其背后是云端的認(rèn)知服務(wù)體系,一套也可做語(yǔ)音識(shí)別、自然語(yǔ)言理解、語(yǔ)音合成、視覺(jué)識(shí)別、情感分析、面部識(shí)別、視頻檢測(cè),搜索等功能的人工智能平臺(tái)。廠商將這種智能的人機(jī)交互能力以機(jī)器人引擎加人工智能平臺(tái)的方式開(kāi)放出來(lái),用來(lái)構(gòu)建龐大的生態(tài)系統(tǒng)。
綜上所述,隨著企業(yè)與互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)不斷融合,大數(shù)據(jù)平臺(tái)技術(shù)呈現(xiàn)出兩大發(fā)展脈絡(luò):(1)沿著從依托編程、專注物理底層邏輯,到深度依賴數(shù)據(jù)、數(shù)據(jù)產(chǎn)生業(yè)務(wù)邏輯的脈絡(luò)不斷進(jìn)化。(2)新型的人機(jī)交互方式,則將大數(shù)據(jù)平臺(tái)技術(shù)能力服務(wù)化,而平臺(tái)支撐的機(jī)器學(xué)習(xí)算法的革新,則為這種服務(wù)持續(xù)賦予智能??梢灶A(yù)見(jiàn),不遠(yuǎn)的將來(lái),智能化大數(shù)據(jù)平臺(tái)將成為公司數(shù)字化經(jīng)營(yíng)決策的中樞神經(jīng),每一個(gè)公司都會(huì)有自己的數(shù)字大腦。