在數(shù)據(jù)資產(chǎn)管理領(lǐng)域,有著許多相似的概念和詞匯。譬如說“數(shù)據(jù)管理”和“數(shù)據(jù)治理”,像孿生兄弟一樣讓人糾結(jié)不已。上周,與一個(gè)朋友聊起元數(shù)據(jù)、主數(shù)據(jù)和參考數(shù)據(jù)的關(guān)系是什么。這個(gè)話題我們足足聊了二十分鐘。這三個(gè)概念我在一開始做數(shù)據(jù)管理相關(guān)工作的時(shí)候也糾結(jié)了挺久,于是我根據(jù)聊起來的內(nèi)容稍稍總結(jié)了一下,就有了這篇文章,希望能給讀者減少些許疑惑。
1、假設(shè)場景
我們的假設(shè)場景先是這樣的,現(xiàn)在正在為中國地理協(xié)會(huì)設(shè)計(jì)一個(gè)中國地理信息系統(tǒng)(當(dāng)然真實(shí)的地理信息系統(tǒng)不會(huì)是這樣,都說只是假設(shè)一下)。我現(xiàn)在正設(shè)計(jì)到“地市”這個(gè)對象。常說“千言萬語不及一圖”,這三者的關(guān)系咱們先上圖。
2、元數(shù)據(jù)--數(shù)據(jù)的數(shù)據(jù)
元數(shù)據(jù)(meta-data)是描述企業(yè)數(shù)據(jù)的相關(guān)數(shù)據(jù),指在IT系統(tǒng)建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)定義,目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù),包括對數(shù)據(jù)的業(yè)務(wù)、結(jié)構(gòu)、定義、存儲(chǔ)、安全等各方面對數(shù)據(jù)的描述。
例如在假設(shè)場景中,我們設(shè)計(jì)了地市表的數(shù)據(jù)模型(如上圖紅色框里面表示),地市表這個(gè)實(shí)體的數(shù)據(jù)模型如何進(jìn)行定義正是元數(shù)據(jù)所關(guān)心的范疇。
元數(shù)據(jù)可以說是企業(yè)的數(shù)據(jù)地圖,它直接反映了企業(yè)中有什么樣的數(shù)據(jù),數(shù)據(jù)是如何存放的,例如,數(shù)據(jù)結(jié)構(gòu)是什么樣子,數(shù)據(jù)與業(yè)務(wù)之間的關(guān)系是怎么樣,數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系是怎么樣,數(shù)據(jù)有什么樣的安全需求,數(shù)據(jù)有什么樣的存儲(chǔ)需求。
針對元數(shù)據(jù)的管理,對于傳統(tǒng)企業(yè)數(shù)據(jù)而言是非常重要的一項(xiàng)管理挑戰(zhàn)。因?yàn)閭鹘y(tǒng)企業(yè)技術(shù)和管理觀念上有所缺失,從而導(dǎo)致了許多問題。因此,我們在進(jìn)行許多傳統(tǒng)企業(yè)數(shù)據(jù)治理或者數(shù)據(jù)管理項(xiàng)目,也就是元數(shù)據(jù)管理方面時(shí),常常會(huì)先從數(shù)據(jù)模型梳理著手。
3、主數(shù)據(jù)--企業(yè)黃金數(shù)據(jù)記錄
主數(shù)據(jù)(main data)主要是指經(jīng)實(shí)例化的企業(yè)關(guān)鍵數(shù)據(jù)。
還是回到我們的假設(shè)場景,我們在上面設(shè)計(jì)完成數(shù)據(jù)模型設(shè)計(jì)的“城市表”中填寫了相應(yīng)的城市數(shù)據(jù),例如,北京、上海、廣州、南寧等等。這些在城市表中填充的數(shù)據(jù),正是組織中國地理協(xié)會(huì)的主數(shù)據(jù),因?yàn)檫@些數(shù)據(jù)是中國地理協(xié)會(huì)這個(gè)組織的關(guān)鍵業(yè)務(wù)實(shí)體,它為組織的業(yè)務(wù)開展提供關(guān)聯(lián)環(huán)境,而且它可能在企業(yè)業(yè)務(wù)開展過程中被反復(fù)引用。針對這些核心關(guān)鍵數(shù)據(jù),組織和企業(yè)無論從數(shù)據(jù)的質(zhì)量、一致性、可用性、管理規(guī)范等方面都應(yīng)該有著最嚴(yán)格的數(shù)據(jù)要求。
那么一般而言,以下涉及企業(yè)經(jīng)營的人、財(cái)、物的數(shù)據(jù)最有可能納入企業(yè)主數(shù)據(jù)管理的范疇,例如
企業(yè)產(chǎn)品及其相關(guān)信息:包括企業(yè)相關(guān)產(chǎn)品、服務(wù)、版本、價(jià)格、標(biāo)準(zhǔn)操作等等
企業(yè)財(cái)務(wù)信息:包括業(yè)務(wù)、預(yù)算、利潤、合同、財(cái)務(wù)科目等等
企業(yè)相關(guān)利益相關(guān)者:如客戶、供應(yīng)商、合作伙伴、競爭對手等
企業(yè)組織架構(gòu):如員工、部門等
可見,主數(shù)據(jù)就是企業(yè)被不同運(yùn)營場合反復(fù)引用關(guān)鍵的狀態(tài)數(shù)據(jù),它需要在企業(yè)范圍內(nèi)保持高度一致。它可以隨著企業(yè)的經(jīng)營活動(dòng)而改變,例如,客戶的增加,組織架構(gòu)的調(diào)整,產(chǎn)品下線等;但是,主數(shù)據(jù)的變化頻率應(yīng)該是較低的。所以,企業(yè)運(yùn)營過程產(chǎn)生過程數(shù)據(jù),如生產(chǎn)過程產(chǎn)生各種如訂購記錄、消費(fèi)記錄等,一般不會(huì)納入主數(shù)據(jù)的范圍。當(dāng)然,在不同行業(yè),不同企業(yè)對主數(shù)據(jù)有不同的看法和做法,正如我們與國內(nèi)大型航空企業(yè)的實(shí)施相關(guān)數(shù)據(jù)項(xiàng)目時(shí),也在為航班動(dòng)態(tài)是不是主數(shù)據(jù)而糾結(jié)不已。
因此,有鑒于主數(shù)據(jù)對于企業(yè)的重要性,企業(yè)和組織需要對其主數(shù)據(jù)進(jìn)行有效的管理:包括理解主數(shù)據(jù)應(yīng)用需求,識(shí)別主數(shù)據(jù)來源及源頭,梳理主數(shù)據(jù)上下游關(guān)系,數(shù)據(jù)整合和發(fā)布,提升主數(shù)據(jù)的數(shù)據(jù)質(zhì)量等。
4、參考數(shù)據(jù)--數(shù)據(jù)的字典
在本文引用的假設(shè)案例中,我們將會(huì)注意到剛才填寫的地市這類數(shù)據(jù)有些列,如省份、城市類型等。如果沒有缺少上下文的環(huán)境,我們是無法理解其具體含義,這時(shí)候我們往往引入?yún)⒖紨?shù)據(jù)(reference data)加以解釋和理解,如下圖紅色標(biāo)注所示。
參考數(shù)據(jù)是增加數(shù)據(jù)可讀性、可維護(hù)性以及后續(xù)應(yīng)用的重要數(shù)據(jù)。例如,你看到“性別”的這個(gè)字段,很可能是1代表男性、2代表女性。在許多企業(yè)中有這樣的約定俗成,而更多的參考數(shù)據(jù)可能記錄在開發(fā)人員和運(yùn)營人員的大腦當(dāng)中。但問題是一旦這些人離開,您系統(tǒng)里面的數(shù)據(jù)就成了一堆沒有注釋的天書。
大家可能覺得,這所謂參考數(shù)據(jù)不就是數(shù)據(jù)字典嗎?對,我們在很多系統(tǒng)里面都會(huì)有這樣和那樣的數(shù)據(jù)字典。但是正是由于這些數(shù)據(jù)字典局僅限于個(gè)別系統(tǒng)而沒有統(tǒng)一標(biāo)準(zhǔn),從一個(gè)側(cè)面間接造就了大量的數(shù)據(jù)孤島。企業(yè)為了進(jìn)行更有效率的數(shù)據(jù)整合、數(shù)據(jù)共享和數(shù)據(jù)分析應(yīng)用,開始嘗試對參考數(shù)據(jù)進(jìn)行企業(yè)或者部門層面的整合和管理,利用參考數(shù)據(jù)集記錄系統(tǒng)嘗試為范圍內(nèi)的IT系統(tǒng)中的數(shù)據(jù)庫提供統(tǒng)一的參考數(shù)據(jù)。
5、小結(jié)
主數(shù)據(jù)則是真實(shí)的企業(yè)業(yè)務(wù)數(shù)據(jù),是企業(yè)的關(guān)鍵業(yè)務(wù)數(shù)據(jù)。
參考數(shù)據(jù)則是對數(shù)據(jù)的解釋,針對一些數(shù)據(jù)范圍和取值的數(shù)據(jù)解釋,讓人們?nèi)菀鬃x取相關(guān)的數(shù)據(jù)。
元數(shù)據(jù)是對數(shù)據(jù)的描述,用于描述企業(yè)數(shù)據(jù)的所有信息和數(shù)據(jù),如結(jié)構(gòu)、關(guān)系、安全需求等,除增加數(shù)據(jù)可讀性外,也是后續(xù)數(shù)據(jù)管理的基礎(chǔ)。
一般而言,企業(yè)中這三類數(shù)據(jù)與其它數(shù)據(jù)的數(shù)據(jù)量、質(zhì)量需求,更新頻率、數(shù)據(jù)生命周期的關(guān)系大致如下圖:
作者簡介:
梁銘圖,DAMS架構(gòu)師精英群專家,新炬網(wǎng)絡(luò)首席架構(gòu)師。
擁有十年以上數(shù)據(jù)庫運(yùn)維、數(shù)據(jù)分析、數(shù)據(jù)庫設(shè)計(jì)以及系統(tǒng)規(guī)劃建設(shè)經(jīng)驗(yàn)。
長期為國內(nèi)電信運(yùn)營商的大型IT系統(tǒng)進(jìn)行系統(tǒng)軟件維、數(shù)據(jù)架構(gòu)規(guī)劃、設(shè)計(jì)和實(shí)施以及大型IT系統(tǒng)數(shù)據(jù)建模工作,在數(shù)據(jù)架構(gòu)管理以及數(shù)據(jù)資產(chǎn)管理方面有著深入的研究。