為什么很多公司開始建設(shè)數(shù)據(jù)中臺?盡管數(shù)據(jù)中臺的文章很多,但是一千人眼里有一千個數(shù)據(jù)中臺,到底什么是數(shù)據(jù)中臺?數(shù)據(jù)中臺包含什么?
2017 年開始,當(dāng)網(wǎng)易嚴(yán)選有了一定量的數(shù)據(jù),我們就開始規(guī)劃建設(shè)我們的數(shù)據(jù)中臺,目前我們已經(jīng)完成了數(shù)據(jù)中臺體系的搭建,我將根據(jù)我們建設(shè)數(shù)據(jù)中臺的經(jīng)驗和方法論試圖解答上面這些問題。
為什么大家開始建設(shè)數(shù)據(jù)中臺?
2018 年開始,朋友圈里講數(shù)據(jù)中臺的文章開始逐漸變多,當(dāng)然拿著手機看世界并不一定看到真實的世界。我也跟各個行業(yè)的一些大公司的 CIO 交流,發(fā)現(xiàn)很多行業(yè)的大公司都開始組建大數(shù)據(jù)團隊,建設(shè)數(shù)據(jù)中臺。
結(jié)合文章和交流獲取的信息,我切身感受到宏觀經(jīng)濟對技術(shù)的影響。2018 年開始經(jīng)濟下行,生意不好做了,粗放的經(jīng)營已經(jīng)不行了,越來越多的企業(yè)想通過數(shù)據(jù)驅(qū)動來進行精細化的運營和數(shù)據(jù)化轉(zhuǎn)型。
如上圖所示,企業(yè)需要數(shù)字化轉(zhuǎn)型,需要更多的觸點去跟自己的用戶 / 客戶建立聯(lián)系,很多企業(yè)就需要做自己的公眾號、小程序 (各家的小程序) 甚至 app。
我們希望用戶更容易找到我們的商品 / 服務(wù),我們就需要搜索。我們希望用戶更多的瀏覽 / 使用我們的商品 / 服務(wù)就需要推薦。我們維護用戶 / 客戶的生命周期,根據(jù)生命周期采取不同的營銷動作,就需要 CRM。我們需要拉來更多的新用戶,就需要投放廣告,為了更好的投放效果,我們需要建設(shè)我們的 DMP。當(dāng)我們生意做大,我們需要對抗黑產(chǎn) (羊毛黨),讓我們的優(yōu)惠能讓真正的用戶享受,我們需要風(fēng)控。這一切都需要底層大數(shù)據(jù)的支持。
企業(yè)需要精細化運營,就需要不斷地提升運營的頻次 (如下圖所示) 和粒度。我們需要把運營的節(jié)奏提升到周級、天級甚至實時。我們隨時隨地了解我們企業(yè)經(jīng)營狀況,需要不斷地更精細 (細粒度) 地分析我們的業(yè)務(wù),快速做出業(yè)務(wù)決策。我們就需要能夠快速地構(gòu)建大量的 BI 報表,在一些重要的節(jié)點 (大促) 時,甚至需要盯著數(shù)據(jù)大屏。如果我們有能力,還可以建設(shè)場景化的數(shù)據(jù)產(chǎn)品來支持業(yè)務(wù)的決策。這一切都需要底層大數(shù)據(jù)的支持。
如何快速地利用底層大數(shù)據(jù)的支持,讓我們的數(shù)據(jù)化轉(zhuǎn)型、精細化運營能夠高頻的迭代,這就需要我們的數(shù)據(jù)中臺提供強有力的支持。
這里也提醒一點,當(dāng)我們需要大規(guī)模的數(shù)據(jù)應(yīng)用時 (搜索 / 推薦 /BI 報表...),我們才需要構(gòu)建數(shù)據(jù)中臺。因為建設(shè)數(shù)據(jù)中臺的投入大。
打個比方,當(dāng)我一家人要吃飯,我自己買菜,在自己的廚房用普通的廚具自己做就好了,如果是富士康,幾萬幾十萬人吃飯,就需要建食材的加工配送中心 (類比數(shù)據(jù)中臺)。本質(zhì)上是“需求規(guī)模量級的變化,導(dǎo)致解決方案的質(zhì)變”。
所以我們看到的,基本是大公司在建設(shè)數(shù)據(jù)中臺。盡管你們可能現(xiàn)在不適合建設(shè)數(shù)據(jù)中臺,但數(shù)據(jù)中臺的思想大家都可以借鑒。
小結(jié)一下,當(dāng)企業(yè)需要數(shù)據(jù)化轉(zhuǎn)型、精細化運營,進而產(chǎn)生大規(guī)模數(shù)據(jù)應(yīng)用需求的時候,就需要建設(shè)數(shù)據(jù)中臺。
什么是數(shù)據(jù)中臺?
這是一個千人千面的問題。我們的定義是“數(shù)據(jù)中臺是高質(zhì)量、高效賦能數(shù)據(jù)前臺的一系列數(shù)據(jù)系統(tǒng)和數(shù)據(jù)服務(wù)的組合”。
因為規(guī)范最終是在系統(tǒng)和服務(wù)中落地的,所以定義中就沒有包含規(guī)范部分。
數(shù)據(jù)中臺的核心職責(zé)是高效地賦能數(shù)據(jù)前臺為業(yè)務(wù)提供價值。要想理解數(shù)據(jù)中臺先要理解數(shù)據(jù)前臺,上文說到的搜索、推薦、BI 報表、數(shù)據(jù)大屏等都屬于數(shù)據(jù)前臺。
我們來看下面網(wǎng)易嚴(yán)選數(shù)據(jù)體系的圖就更清楚數(shù)據(jù)中臺的定位了。
數(shù)據(jù)中臺的下層是數(shù)據(jù)平臺,數(shù)據(jù)平臺主要解決跟業(yè)務(wù)無關(guān)的問題,主要是大數(shù)據(jù)的存儲和計算問題。
數(shù)據(jù)中臺的上層就是數(shù)據(jù)前臺,主要包括 BI 報表、數(shù)據(jù)產(chǎn)品和業(yè)務(wù)系統(tǒng)。
數(shù)據(jù)中臺首先賦能分析師通過 BI 報表的形式來驅(qū)動業(yè)務(wù)精細化運營。
如下圖所示,基于數(shù)倉里已經(jīng)半加工好的數(shù)據(jù),分析師使用嚴(yán)選有數(shù)敏捷 BI 平臺可以快速地根據(jù)業(yè)務(wù)需求進行數(shù)據(jù)可視化和數(shù)據(jù)分析。
嚴(yán)選有數(shù)現(xiàn)在每周的 UV 超過 800,每天報表瀏覽次數(shù)超過 12w,目前的圖表數(shù)超過 7w。對于一個事業(yè)部級的 BI 平臺,應(yīng)該算是一個非常好的成績。這里特別感謝下我們的分析師團隊,她們的辛勤工作才會有這樣的成績。
數(shù)據(jù)中臺還會賦能業(yè)務(wù)系統(tǒng)開發(fā)通過統(tǒng)一查詢服務(wù) (主要是統(tǒng)一查詢服務(wù)和標(biāo)簽服務(wù)) 來輔助業(yè)務(wù)過程中的決策。
基于數(shù)倉里面加工好的數(shù)據(jù)模型,業(yè)務(wù)系統(tǒng)開發(fā)人員使用統(tǒng)一查詢服務(wù)獲取到的模型數(shù)據(jù)在業(yè)務(wù)系統(tǒng)中增加輔助決策功能。
比如供應(yīng)商系統(tǒng)需要對供應(yīng)商進行評級,供應(yīng)商評級需要供應(yīng)商的商品銷售數(shù)據(jù)、評論數(shù)據(jù)、退貨數(shù)據(jù)、質(zhì)量數(shù)據(jù),供應(yīng)商采購的交期數(shù)據(jù)等等。
數(shù)倉會根據(jù)這些數(shù)據(jù)加工模型,供應(yīng)商系統(tǒng)可以通過統(tǒng)一查詢獲取模型在供應(yīng)商系統(tǒng)中使用。在嚴(yán)選,統(tǒng)一查詢服務(wù)已經(jīng)接入了 67 個應(yīng)用、670 個模型、每天有 300w 的調(diào)用。
我們自己做的數(shù)據(jù)產(chǎn)品(如下圖所示),基本會用到我們數(shù)據(jù)中臺所有的能力支持,包括統(tǒng)一查詢服務(wù)、標(biāo)簽服務(wù)、指標(biāo)監(jiān)控服務(wù)、數(shù)據(jù)產(chǎn)出服務(wù)等數(shù)據(jù)服務(wù),也會使用嚴(yán)選有數(shù)創(chuàng)建 BI 報表掛載到數(shù)據(jù)產(chǎn)品中。
數(shù)據(jù)中臺包含什么?
從上文的圖中,我們已經(jīng)初步了解了數(shù)據(jù)中臺包含了哪些系統(tǒng)和服務(wù)。概括來說,數(shù)據(jù)中臺包含數(shù)倉體系、數(shù)據(jù)服務(wù)集和 BI 平臺。
1、數(shù)倉體系
數(shù)倉體系是數(shù)據(jù)中臺的核心,數(shù)據(jù)是新能源,是生產(chǎn)資料。
數(shù)倉體系包含數(shù)倉和一系列的管理系統(tǒng),用來管理數(shù)據(jù),保證數(shù)據(jù)的完整、一致和準(zhǔn)確。
數(shù)倉體系的構(gòu)成和關(guān)系,如下圖所示。數(shù)倉是數(shù)倉體系的核心,也是整個中臺的核心。數(shù)倉的開發(fā)和存儲,主要依賴網(wǎng)易猛犸數(shù)據(jù)平臺。
夸父 - 埋點管理系統(tǒng)和精衛(wèi) - 數(shù)據(jù)填報系統(tǒng)從供應(yīng)側(cè)保障數(shù)據(jù)的完整性和質(zhì)量。
埋點數(shù)據(jù)由于來源廣 (web 端、ios、android、小程序等)、鏈路長、格式 (日志的 scheme 約束) 等問題,一直是數(shù)據(jù)質(zhì)量的重災(zāi)區(qū)。
夸父 - 埋點管理系統(tǒng)提供了埋點的管理、埋點流程協(xié)同和埋點測試,提供了埋點日志的 scheme,保障了埋點數(shù)據(jù)質(zhì)量。
精衛(wèi) - 數(shù)據(jù)填報系統(tǒng)提供數(shù)據(jù)導(dǎo)入數(shù)倉及導(dǎo)入時的驗證功能,提升數(shù)據(jù)的完整性。
整個電商的業(yè)務(wù)過程非常多,所有業(yè)務(wù)過程都線上化的過程非常漫長。當(dāng)我們下游的數(shù)據(jù)應(yīng)用需要某個業(yè)務(wù)過程的數(shù)據(jù),而這個業(yè)務(wù)過程還沒有線上化時,就可以通過精衛(wèi) - 數(shù)據(jù)填報系統(tǒng)導(dǎo)入數(shù)據(jù)到數(shù)倉,下游就可以使用這份數(shù)據(jù)。
倉頡 - 指標(biāo)管理系統(tǒng)和燧人 - 指標(biāo)地圖是從需求側(cè)提升數(shù)據(jù) (指標(biāo)) 的一致性。
倉頡 - 指標(biāo)管理系統(tǒng)顧名思義是管理指標(biāo)定義,在提供指標(biāo)統(tǒng)一管理的同時,提供了指標(biāo)定義規(guī)范的約束。數(shù)據(jù)開發(fā)可以根據(jù)指標(biāo)定義里的指標(biāo)口徑來進行指標(biāo)開發(fā)。
燧人 - 指標(biāo)地圖是提供給業(yè)務(wù)方查看當(dāng)前的指標(biāo)分類與指標(biāo)定義。
數(shù)倉開發(fā)本身要解決的核心問題是質(zhì)量和效率 (所有開發(fā)也都需要解決),無論是質(zhì)量和效率都需要好的架構(gòu)設(shè)計。
北斗 - 數(shù)倉設(shè)計管理系統(tǒng)就是來完成數(shù)倉設(shè)計的。數(shù)倉的開發(fā)原本總是非常的經(jīng)驗化,很多知識都是存在數(shù)據(jù)開發(fā)的腦子里。我們通過北斗 - 數(shù)倉設(shè)計管理系統(tǒng)來推行數(shù)倉先設(shè)計再開發(fā),通過北斗 - 數(shù)倉設(shè)計管理系統(tǒng)將數(shù)倉開發(fā)的經(jīng)驗知識化、標(biāo)準(zhǔn)化、工具化。
數(shù)據(jù)質(zhì)量中心 (如下圖所示) 提供全鏈路的數(shù)據(jù)保障體系,提供任務(wù)監(jiān)控、數(shù)據(jù)監(jiān)控、應(yīng)用監(jiān)控、影響范圍評估和恢復(fù)的支撐。
2、數(shù)據(jù)服務(wù)集
數(shù)據(jù)服務(wù)主要是數(shù)據(jù)場景下的解決方案的沉淀。數(shù)據(jù)服務(wù)集極大的加速了數(shù)據(jù)應(yīng)用開發(fā)效率。
核心的數(shù)據(jù)服務(wù)是統(tǒng)一查詢服務(wù)和標(biāo)簽服務(wù),提供指標(biāo)模型和標(biāo)簽?zāi)P蛯?shù)據(jù)應(yīng)用系統(tǒng) (業(yè)務(wù)系統(tǒng)和數(shù)據(jù)產(chǎn)品) 的統(tǒng)一配送。
統(tǒng)一查詢服務(wù)核心提供表轉(zhuǎn)接口和數(shù)據(jù)網(wǎng)關(guān)的功能。數(shù)倉管理的是數(shù)據(jù)模型表,通過統(tǒng)一查詢,數(shù)據(jù)應(yīng)用系統(tǒng)就可以通過接口的形式來訪問數(shù)據(jù)模型表。統(tǒng)一查詢服務(wù)是數(shù)據(jù)體系和數(shù)據(jù)應(yīng)用系統(tǒng)之間的總網(wǎng)關(guān),需要提供模型級限流、熔斷等網(wǎng)關(guān)功能。
3、BI平臺
BI 平臺我們用的是嚴(yán)選有數(shù),也就是在網(wǎng)易有數(shù)在嚴(yán)選的版本。網(wǎng)易有數(shù)是一款敏捷 BI 平臺,在設(shè)計上通過以終為始的設(shè)計理念和類 PPT 操作模式,在保障靈活性的基礎(chǔ)上,提供了極大的操作便利。
在性能方面,我們結(jié)合數(shù)據(jù)產(chǎn)出服務(wù)做的基于數(shù)據(jù)產(chǎn)出的緩存策略極大地提升了報表的性能。圖表首訪緩存命中率基本穩(wěn)定在 100%,整體緩存命中率超過 80%。
數(shù)據(jù)中臺的內(nèi)容非常長,本文非常概括地從嚴(yán)選實踐介紹了數(shù)據(jù)中臺。
總結(jié)一下:當(dāng)企業(yè)需要數(shù)據(jù)化轉(zhuǎn)型、精細化運營,進而產(chǎn)生大規(guī)模數(shù)據(jù)應(yīng)用需求的時候,就需要建設(shè)數(shù)據(jù)中臺。數(shù)據(jù)中臺是高質(zhì)量、高效賦能數(shù)據(jù)前臺的一系列數(shù)據(jù)系統(tǒng)和數(shù)據(jù)服務(wù)的組合。數(shù)據(jù)中臺包含數(shù)倉體系、數(shù)據(jù)服務(wù)集和 BI 平臺。
作者介紹
魏文慶,現(xiàn)任網(wǎng)易嚴(yán)選數(shù)據(jù)技術(shù)及產(chǎn)品部總監(jiān)。2007年浙江大學(xué)計算機碩士畢業(yè)后入職網(wǎng)易杭州研究院,從事前端開發(fā),后歷任技術(shù)主管、技術(shù)經(jīng)理、技術(shù)總監(jiān)。曾負責(zé)網(wǎng)易攝影、網(wǎng)易企業(yè)郵箱、易信公眾號等產(chǎn)品開發(fā),以及網(wǎng)易前端微專業(yè)。2015年開始內(nèi)部創(chuàng)業(yè),孵化敏捷BI平臺 - 網(wǎng)易有數(shù),任網(wǎng)易有數(shù)總經(jīng)理,負責(zé)產(chǎn)品研發(fā)和商業(yè)化。2017年開始負責(zé)網(wǎng)易嚴(yán)選數(shù)據(jù)技術(shù)及產(chǎn)品部,從0到1搭建網(wǎng)易嚴(yán)選數(shù)據(jù)中臺和數(shù)據(jù)產(chǎn)品體系。