以下是現(xiàn)場速記。
創(chuàng)鄰科技CTO&聯(lián)合創(chuàng)始人 周研
周研:大家好,我是創(chuàng)鄰科技的周研,很榮幸有機會和大家分享。最近兩天聽下來,前面很多嘉賓都有提到數(shù)據(jù)之間的關(guān)聯(lián)和連接,今天我的分享就和這個事情緊密相關(guān),主題是“GalaxyBase圖技術(shù)賦能企業(yè)增益數(shù)據(jù)資產(chǎn)價值”,分為幾個部分:圖技術(shù)和數(shù)據(jù)資產(chǎn)價值的關(guān)系,GalaxyBase企業(yè)級圖平臺,最后是一些客戶成功案例的分享。
我們生活在日益緊密聯(lián)系的世界,Internet帶來信息連通,IoT帶來設(shè)備連通,微博微信抖音快手這些APP帶來人際關(guān)系連通。隨著社會數(shù)智化程度的不斷加深,數(shù)據(jù)量呈爆發(fā)式增長,數(shù)據(jù)之間的關(guān)系顯得日益復雜,企業(yè)數(shù)字化進程中,原始的數(shù)據(jù)分析和管理沒有辦法滿足海量數(shù)據(jù)轉(zhuǎn)化為高價值數(shù)據(jù)資產(chǎn)需求,沒有數(shù)據(jù)之間的關(guān)聯(lián)分析,數(shù)據(jù)或?qū)⒑翢o意義,關(guān)注并挖掘數(shù)據(jù)背后的關(guān)系成為實現(xiàn)數(shù)據(jù)價值的關(guān)鍵所在。這里是指數(shù)據(jù)連接的Connectivity而不是統(tǒng)計相關(guān)性的Corelation。
關(guān)聯(lián)關(guān)系是無處不在的,因為世界萬物是普遍聯(lián)系的,社交網(wǎng)絡(luò)的應(yīng)用可以有精準營銷、好友推薦、輿情追蹤等等,金融行業(yè)有信用卡反欺詐、資金流向識別,零售行業(yè)可以有用戶360畫像、商品實時推薦、反薅羊毛,電力行業(yè)有電網(wǎng)調(diào)度仿真、故障分析,電信行業(yè)可以做電信防騷擾、防詐騙,政府可以做道路規(guī)劃、智能交通和疫情精準防控,制造業(yè)可以做供應(yīng)鏈管理、物流優(yōu)化、產(chǎn)品溯源,網(wǎng)絡(luò)安全可以做攻擊溯源、調(diào)用鏈分析。
我們在做關(guān)聯(lián)分析的時候會碰到一些難題,數(shù)據(jù)規(guī)模非常大,考慮社交網(wǎng)絡(luò)場景無論是微博、Twitter這些規(guī)模的社交網(wǎng)絡(luò),里面自然人的實體都是10億級別,人和人之間的關(guān)注關(guān)系就是數(shù)百億的規(guī)模。如果考慮到網(wǎng)絡(luò)中的發(fā)帖、評論、回帖這些實體的情況,可能實體數(shù)額都會達到上百億,關(guān)系數(shù)額也會達到上千億。我們也會很多時序數(shù)據(jù)和日志數(shù)據(jù)的引入,包括交易數(shù)據(jù),帶著時間戳的數(shù)據(jù)進來,使得關(guān)系的規(guī)模更加擴大,很多場景都可以達到萬億的關(guān)系,所以要處理的數(shù)據(jù)規(guī)模是非常大的。
我們需要在這里進行非常深度的關(guān)聯(lián)跳數(shù)分析,我自己是一個中心,我的朋友對我來說就是一跳的連接,朋友的朋友就是兩跳的連接。社交網(wǎng)絡(luò)的分析場景通常需要分析四到六跳的深度關(guān)系,而在反欺詐這樣的場景有了更多的設(shè)備、IP、Cookie的實體進來,大概需要分析六到十跳的深度,電網(wǎng)領(lǐng)域因為電力傳導,鏈路可以非常長,需要分析三十跳甚至五十跳這樣的深度,如何進行高效分析就是一個問題。關(guān)聯(lián)分析的實時要求又非常高,沒有實時性的要求,可以進行離線計算,但這些實時的場景下,更多的場景如果能夠更加實時地拿到結(jié)果就能夠有效地提升對用戶的價值。我們?nèi)绻龇聪村X或者反詐騙,等到案發(fā)以后過了一周或者一個月,再靠其它的離線分析手段拿到結(jié)果,只能作為一個事后的追溯,沒有辦法在事中進行干預。如果能夠知道實時轉(zhuǎn)帳是有一個洗錢風險或者資金違規(guī)交易風險,可以在轉(zhuǎn)帳的過程中實行干預。
為了能夠很好地解決這樣的一些關(guān)聯(lián)分析的問題,所以我們需要這樣的圖技術(shù)。什么是圖?這里的圖是指圖論中的Graph,不是圖片或者圖像,而是以圖論為基礎(chǔ)理論,以點和邊為核心邏輯描述現(xiàn)實世界中的實體和關(guān)系的數(shù)據(jù)結(jié)構(gòu),這樣的數(shù)據(jù)結(jié)構(gòu)為核心作為存儲單元的數(shù)據(jù)庫就叫做圖數(shù)據(jù)庫。通過圖來表達現(xiàn)實場景的問題是非常明晰的,一圖勝千言萬語。
美國中情局抓捕本拉登的案例中的節(jié)點包括黑幫組織、個人和槍支的關(guān)系,中間還有金錢的流動,可以分析網(wǎng)絡(luò)中心流向的各種位置。
圖的價值會有更直觀的模型全面地展示,我們用關(guān)系型數(shù)據(jù)庫進行建模會先做一個ER圖,根據(jù)實體1:1或者1:N的關(guān)系有不同的方式拆成各種表。ER圖本身就是Entity Relationship,而在圖數(shù)據(jù)庫中可以直接進行表達,不需要二維表的現(xiàn)在進行轉(zhuǎn)化,所以是更自然地描繪世界本身實體關(guān)系狀況的方式。圖模型表達的數(shù)據(jù)模型可以更加簡潔,溝通效率更加提升。
我們?nèi)绻麑慡QL語句會有非常復雜的意義,如果需要表達三到五跳的關(guān)鍵,每一跳需要單獨表達,三到五跳可能需要三個交易,也會非常復雜,圖數(shù)據(jù)庫會有專門的基于關(guān)聯(lián)的表達查詢,就是用圓跨號表示一個點,方跨號表示一個邊,中間的箭頭表示關(guān)聯(lián)方式,可以把查詢語言寫得非常簡潔,也是提升開發(fā)效率。
當然,最關(guān)鍵的就是查詢效率有指數(shù)性的提升。我們做過這樣一個對比,數(shù)據(jù)集并沒有很大,7萬個點,50萬個邊,就是誰信任誰,在這上面進行兩跳的查詢,關(guān)系型數(shù)據(jù)庫加上索引的話還是比較快的,三跳就會明顯變慢,四跳就更慢了,五跳跑一個小時都跑不出來結(jié)果。我們的圖數(shù)據(jù)庫就可以在非常短的時間內(nèi)跟跳數(shù)增加的幅度很慢,無論是多深的跳數(shù)都可以很快達到返回,也是很多開發(fā)約定禁止三張表以上的交易關(guān)聯(lián)。數(shù)據(jù)規(guī)模大、數(shù)據(jù)維度多、實時要求高、關(guān)聯(lián)跳數(shù)深的場景都是圖數(shù)據(jù)庫的適用系統(tǒng)。
圖數(shù)據(jù)庫也是我們數(shù)智升級的關(guān)鍵底層基礎(chǔ)設(shè)施,因為大數(shù)據(jù)的價值就在于關(guān)聯(lián)關(guān)系和數(shù)據(jù)規(guī)律的發(fā)掘和應(yīng)用,而圖數(shù)據(jù)庫能夠高效地存儲和處理數(shù)據(jù)之間的關(guān)系。預計到2025年,全球數(shù)據(jù)總量要比2021年增長超過80倍,數(shù)據(jù)價值也是備受重視,由先前少量的孤立數(shù)據(jù)價值挖掘轉(zhuǎn)向海量全量數(shù)據(jù)的價值挖掘。可以看到零散的N個數(shù)據(jù)價值是N,根據(jù)梅特卡夫定律,一個網(wǎng)絡(luò)的價值正比于網(wǎng)絡(luò)節(jié)點數(shù)量的平方,所以當這些數(shù)據(jù)關(guān)聯(lián)起來,體現(xiàn)的價值就能夠是N平方。我們?nèi)绻钟蠱個已經(jīng)關(guān)聯(lián)的部分數(shù)據(jù),價值就是M乘以N平方,要是能夠把這些割裂的局部關(guān)聯(lián)數(shù)據(jù),無論是企業(yè)內(nèi)部的跨部門還是行業(yè)內(nèi)部跨組織的數(shù)據(jù)統(tǒng)一起來,數(shù)據(jù)價值就能夠乘以M乘以N層級以后的平方,每次的關(guān)聯(lián)都會帶來數(shù)據(jù)價值大幅度增長。
Gartner說過,對于數(shù)據(jù)化企業(yè)的能力來說,圖分析能力是唯一且最有效的相對競爭優(yōu)勢,而到2025年全球80%的企業(yè)都將使用圖技術(shù)支撐智能商業(yè)決策。這是各種類型數(shù)據(jù)庫的流行度增長圖,上面的數(shù)據(jù)是相對變化關(guān)系,所以關(guān)系型數(shù)據(jù)庫雖然體量很大,其實流行度相對變化關(guān)系是比較平穩(wěn)的,圖數(shù)據(jù)庫是遠超其它類型的數(shù)據(jù)庫類型,流行度相對變化關(guān)系也是在逐年穩(wěn)步增長的。
我國《“十四五”軟件和信息技術(shù)服務(wù)業(yè)發(fā)展規(guī)劃》明確強調(diào),加速分布式數(shù)據(jù)庫產(chǎn)品研發(fā)和應(yīng)用,突破分布式數(shù)理和任務(wù)調(diào)度架構(gòu),大規(guī)模并行圖處理關(guān)鍵技術(shù),推動高性能數(shù)據(jù)庫在金融、電信、能源等重點行業(yè)關(guān)鍵業(yè)務(wù)系統(tǒng)應(yīng)用,這里特別提到分布式數(shù)據(jù)處理和大規(guī)模并行圖處理,這是創(chuàng)鄰科技擁有的核心知識產(chǎn)權(quán)。
GalaxyBase企業(yè)級圖平臺,介紹一下圖技術(shù)的發(fā)展階段,早期Graph1.0時代單機小規(guī)模原生圖其實相當于設(shè)計一種基于單機的,但比較好地處理圖數(shù)據(jù)的數(shù)據(jù)庫,主要存儲的是參考數(shù)據(jù),也就是靜態(tài)數(shù)據(jù),知識圖譜、產(chǎn)業(yè)圖譜、股權(quán)關(guān)系,通常都是單機就能夠承載的圖數(shù)據(jù)。
隨著數(shù)據(jù)量越來越大,單機系統(tǒng)沒有辦法滿足這樣的要求就會出現(xiàn)隨著數(shù)據(jù)量爆炸式增長,需要能夠在分布式系統(tǒng)上處理圖數(shù)據(jù)的系統(tǒng),就像Genesis Graph,底層存儲是Hive或者現(xiàn)有的分布式可擴展的數(shù)據(jù)存儲,然后上面進行一層圖語義的架構(gòu),實現(xiàn)圖的點邊模型和查詢結(jié)構(gòu),大概主要支持的是交易類型的數(shù)據(jù),數(shù)據(jù)規(guī)模在1-1000億之間,資金流向圖譜、申請圖譜、消費圖譜等等數(shù)據(jù)。主要的問題是依賴第三方大數(shù)據(jù)現(xiàn)有的存儲組件,并不是直接為圖數(shù)據(jù)存儲結(jié)構(gòu)設(shè)計的。數(shù)據(jù)規(guī)模到達一定上限以后,性能問題還是比較明顯的。
GalaxyBase為代表的原生和分布式圖存儲結(jié)構(gòu),既具備原生圖的高效存儲和查詢性能,也具備分布式系統(tǒng)的橫向擴展性,能夠?qū)崿F(xiàn)分布式大規(guī)模圖數(shù)據(jù)的高效讀寫查詢,處理事件和行為數(shù)據(jù)高達百億到萬億級別的數(shù)據(jù),包括日志、IoT、連接、網(wǎng)絡(luò)攻擊,這些數(shù)據(jù)能夠很好地處理。
按照數(shù)據(jù)庫的存儲類型可以分為三類,作為圖數(shù)據(jù)庫,最核心的就是看查詢性能,解決的就是關(guān)系庫中多表效應(yīng)的問題。如果關(guān)系庫多表效應(yīng)需要對查詢進行提速,勢必是離不開使用索引。數(shù)據(jù)量非常巨大的情況下,使用索引也不能很好地解決這個問題。
可能我的朋友只有一個,只要查一個鄰居,但過的索引卻是全局的索引,如果要建立索引必須在這個朋友表上建立全局的索引,可能有百億甚至千億這么大,但鄰居卻只有一個,所以這就是效率的來源。圖數(shù)據(jù)庫核心需要實現(xiàn)的就是免索引連接,不使用索引的方式直接找到一個關(guān)聯(lián)的鄰居點,由此劃分不同的存儲類型。最簡單的就是完全沒有使用免索引連接,這也是一種時間方式,有些多模或者其它形態(tài)的存儲,使用特殊的索引結(jié)構(gòu),實現(xiàn)應(yīng)用層圖語義的表達。好處肯定是跟現(xiàn)有關(guān)系庫的融合度更高,但其實查詢性能是比較低的,跟我們直接使用關(guān)系庫多表效應(yīng)差不多的性能。
我們也可以依賴于第三方的存儲組件,會有一個排序特性,利用這樣的排序特性再加上很好地設(shè)計點邊ID,可以實現(xiàn)近似的免索引連接特性,依賴于第三方的組件,自己的Compaction操作,可能對圖數(shù)據(jù)庫就不太可控,生產(chǎn)過程中也會有由于不斷大批量插入,底層第三方組件會跟不上Compaction,不能實現(xiàn)很好地優(yōu)化。完全原生的結(jié)構(gòu)就是從數(shù)據(jù)存儲層采用原生的點邊數(shù)據(jù)存儲方式,然后梳理到業(yè)務(wù)層就是一致的體現(xiàn),也就是說業(yè)務(wù)里面需要做哪些關(guān)聯(lián)查詢的優(yōu)化,可以直接下推到最底層的分布式存儲,可以統(tǒng)一下推進行性能提升,GalaxyBase實現(xiàn)的就是完全不依賴于第三方存儲組件的全部純原生的存儲結(jié)構(gòu)。
這些就是我們的整體架構(gòu)圖,中間就是圖數(shù)據(jù)庫的核心,分為三層:存儲層、計算層、接口層。剛才講過存儲層是原生分布式圖存儲,分布式的圖查詢引擎,在這之上實現(xiàn)分布式圖計算引擎,單機優(yōu)化算法和分布式優(yōu)化算法。圖算法的特性根據(jù)數(shù)據(jù)量的不同,應(yīng)該選擇不同的圖算法,數(shù)據(jù)量比較小的時候肯定是單機執(zhí)行效率更高,但數(shù)據(jù)量比較大并且有更多分布式算力可以投入進來,我們又需要分布式算法,所以對單機和分布式算法分別進行優(yōu)化。我們提供自定義優(yōu)化函數(shù)服務(wù),可以根據(jù)業(yè)務(wù)需求自己實現(xiàn)自定義的算法和函數(shù)。
圖中這些就是面向企業(yè)管理的用戶權(quán)限管理、集群監(jiān)控管理、多圖管理等等,也是面向企業(yè)級的運維和管理做的很多產(chǎn)品化的工作。
我們是一個完全底層的存儲和計算100%自主知識產(chǎn)權(quán)的高性能國產(chǎn)的圖平臺,所以我們對國產(chǎn)CPU和國產(chǎn)操作系統(tǒng)也是做了非常好的適配,主流國產(chǎn)CPU操作系統(tǒng)都有這樣的適配認證證書。數(shù)據(jù)源也是接入現(xiàn)在所有主流的數(shù)據(jù),無論是實時的流式導入進來還是現(xiàn)有的關(guān)系庫的數(shù)據(jù)批量導入,或者大數(shù)據(jù)庫系統(tǒng)Hive,我們都是可以能夠很好地支持。在此之上構(gòu)建圖智能中臺,可以做數(shù)據(jù)ETL、數(shù)據(jù)圖模型的構(gòu)建、可視化的查詢,包括圖算法的工作流編排、特征計算以及和機器學習的結(jié)合等等。在此之上就是各行各業(yè)的解決方案,包括企業(yè)圖譜、反欺詐、資金流向分析、輿論分析,這些都是各個具體業(yè)務(wù)場景的解決方案。
我們核心業(yè)務(wù)價值:圖存儲的特點是速度快、高擴展、支持完全分布式架構(gòu)、動態(tài)在線擴容,并且支持實時計算。圖計算的維度支持實時計算,內(nèi)置豐富的分布式算法,不需要ETL進行實時圖分析,很好的可視化交互技術(shù)中臺,安全自主可控,所有內(nèi)核源碼都是自研,不依賴于第三方開源組件。
LDBCSMB測試也是一個Benchmark,關(guān)聯(lián)數(shù)據(jù)測試委員會屬于非營利的國際組織,提供圖數(shù)據(jù)庫上的性能測試,這里也是第三方Audit報告,去年打破世界紀錄,相比之前的記錄吞吐量提升了70%,平均查詢性能有6倍以上的提升,95分位查詢性能有72倍提升。數(shù)據(jù)處理規(guī)模也有打破世界紀錄,交易圖譜實現(xiàn)5萬億BN規(guī)模的超大圖分布式存儲,涵蓋超過1000萬的超級節(jié)點,六跳平均查詢,耗時6.7秒,使用50臺機器的集群就完成了這樣的大圖存儲。
我們也有豐富的圖算法知識,支持現(xiàn)在所有主流類型的算法,包括七大類57種圖算法,社區(qū)檢視、相似度、預測算法、模式匹配算法、節(jié)點嵌入算法,可以到深度學習框架進一步學習。這些算法大部分支持分布式優(yōu)化,也是信通院圖計算平臺首家完成評測的廠商。
我們也有可視化界面,就是圖智能分析中臺,可以和地圖的圖層進行結(jié)合展示,包括時序關(guān)系,就是時間軸的場景下圖的演化過程,隨著時間軸的圖的點邊關(guān)系可以動態(tài)變化。
我們還是安全自主可控的,完全自主研發(fā)的圖數(shù)據(jù)庫,也是完全符合國內(nèi)現(xiàn)在的信創(chuàng)要求,獲得去年中國信創(chuàng)產(chǎn)業(yè)拳頭獎的最佳數(shù)據(jù)庫品牌,也和主流的國產(chǎn)操作系統(tǒng)和CPU進行雙向的認證證書。
最后分享一下我們的案例:
IoT移動圖譜講的是設(shè)備和連接設(shè)備的熱點之間的關(guān)系,通俗來講設(shè)備可能是手機,熱點可能是WiFi,通過這樣的連接關(guān)系能夠解決什么問題?現(xiàn)在跟我的手機同時同地點的其它手機在兩小時之前有哪些跟我同時同地點,或者一個月以前都有哪些跟我共同出現(xiàn)過,可以分析設(shè)備之間的相關(guān)性。
現(xiàn)在有些場景比如公安的破案,或者疫情綠碼紅碼其實就是根據(jù)設(shè)備時間的貢獻共同出現(xiàn),按照這種連接關(guān)系進行分析。因為這種連接關(guān)系有時序性質(zhì),今天連接這個東西一個小時走了,后來又來,帶來時間戳以后就會讓這個數(shù)據(jù)規(guī)模非常大,達到1500億點位,725億屬性/小時,也是節(jié)省很多硬件成本。
反信用卡欺詐也是通過網(wǎng)絡(luò)關(guān)系抓到明顯的特征,實現(xiàn)多維指標計算,保障風控效率提升,同時也會提升客戶的升級體驗。之前系統(tǒng)需要3-5分鐘,換成我們的技術(shù)1秒鐘以內(nèi)就可以做到,大大提升信用卡審批的實時性。
國有頭部銀行的云平臺相當于行內(nèi)所有圖的相關(guān)應(yīng)用,要有一個統(tǒng)一的平臺管理,類似于在行內(nèi)私有云上面進行DbaaS服務(wù),所有內(nèi)容都在我們平臺完成,實現(xiàn)多租戶資源隔離,申請分配,節(jié)點申請和控制的功能。
相比傳統(tǒng)的企業(yè)關(guān)系圖譜,這里可能增加更多的動態(tài)數(shù)據(jù),可以實現(xiàn)交易流水、開戶數(shù)據(jù),把這些數(shù)據(jù)加入進來以后能夠直觀地展示客戶的各種關(guān)聯(lián)關(guān)系,極大地提升送審效率,實時監(jiān)控量化客戶關(guān)聯(lián)方風險和網(wǎng)絡(luò)風險,擴大業(yè)務(wù)風險觀察視角。
我們知道現(xiàn)在很多公司用微服務(wù),微服務(wù)數(shù)量非常多,可能有幾十萬,調(diào)用關(guān)系和依賴關(guān)系非常復雜,針對一個服務(wù)進行升級的時候需要確定影響情況是很困難的事情。微服務(wù)之間的調(diào)用關(guān)系就是天然的網(wǎng)絡(luò)關(guān)系,能夠很好地用圖表示。大型互聯(lián)網(wǎng)公司也是通過圖數(shù)據(jù)庫實現(xiàn)對全部門所有微服務(wù)的統(tǒng)一管理和監(jiān)控,實現(xiàn)自動監(jiān)控、告警、進行分析優(yōu)化,極大地降低運維人員的工作量,提高微服務(wù)的穩(wěn)定性。
電網(wǎng)天生就是一張圖,每個電力設(shè)備都是一個節(jié)點,設(shè)備和設(shè)備之間的電線就是一條邊,天生就是網(wǎng)絡(luò)結(jié)構(gòu),所以我們在這里做到數(shù)字孿生的實現(xiàn),就是每個物理世界中的設(shè)備或者電線在數(shù)字世界中都是點或者邊一一對應(yīng)。采用這套系統(tǒng)可以做電網(wǎng)檢修,包括故障分析,尤其是一個地方斷電以后選用新的線路,如果原先靠人工研判花的時間比較長,通過網(wǎng)絡(luò)分析計算能夠提升原先的方案3-5倍的速度,節(jié)省下來的效果就是極大地縮短停電時間,其實也是產(chǎn)生極大的社會價值。
我們的標桿客戶分為各個行業(yè)都有很多應(yīng)用,因為關(guān)聯(lián)關(guān)系是無處不在的,任何行業(yè)的數(shù)據(jù)要想深度挖掘關(guān)聯(lián)都能夠產(chǎn)生巨大的價值,所以我們有金融行業(yè)的用戶、能源行業(yè)的用戶、互聯(lián)網(wǎng)的標桿用戶、政府和高校以及各行各業(yè)的標桿用戶。
因為我們其實是底層的數(shù)據(jù)庫和圖平臺軟件,真正在行業(yè)中產(chǎn)生業(yè)務(wù)價值是需要有更多對行業(yè)業(yè)務(wù)有深度了解的合作伙伴,所以我們也有一個非常大的生態(tài)系統(tǒng),戰(zhàn)略發(fā)展伙伴、云合作伙伴、解決方案合作伙伴,提供我們在各個場景下對行業(yè)、對業(yè)務(wù)有更深了解和定制的應(yīng)用系統(tǒng)解決方案。
GalaxyBase的目標就是釋放數(shù)據(jù)互聯(lián)力量,增益數(shù)據(jù)資產(chǎn)價值,謝謝大家!