記者日前在采訪Informatica中國(guó)區(qū)首席產(chǎn)品顧問但彬先生時(shí),他告訴記者:“Informatica既可以在數(shù)據(jù)架構(gòu)層面提供信息傳遞、B2B數(shù)據(jù)交換、企業(yè)數(shù)據(jù)集成等一系列的基礎(chǔ)架構(gòu)解決方案,同時(shí)也可為行業(yè)提供數(shù)據(jù)質(zhì)量管理、主數(shù)據(jù)管理和復(fù)雜事件處理等方案,來(lái)支撐數(shù)據(jù)中心實(shí)現(xiàn)可信、交互、權(quán)威的信息資產(chǎn)管理,達(dá)成企業(yè)的業(yè)務(wù)目標(biāo),這也是信息中心建設(shè)的一個(gè)重點(diǎn)。”
六個(gè)角度考量數(shù)據(jù)質(zhì)量
但彬表示,數(shù)據(jù)質(zhì)量管理在數(shù)據(jù)中心建設(shè)中是一個(gè)完整的生態(tài)鏈。數(shù)據(jù)質(zhì)量會(huì)受到供應(yīng)商、生產(chǎn)員工、工藝流程以及內(nèi)部客戶和外部系統(tǒng)的影響,同時(shí),從應(yīng)用和軟件角度方面講,數(shù)據(jù)提供者、軟件開發(fā)集成、質(zhì)量管控手段等也都會(huì)影響到企業(yè)數(shù)據(jù)質(zhì)量的整體狀況。
從數(shù)據(jù)質(zhì)量整體框架和方法論上講,首先要確定目標(biāo),然后要清楚用什么人,通過怎樣的流程,采用什么樣的技術(shù)支撐來(lái)達(dá)成目標(biāo),人、流程、技術(shù)三方面缺一不可。而設(shè)定最終目標(biāo)前最重要的一件事是要了解現(xiàn)狀,找出企業(yè)最關(guān)注哪些數(shù)據(jù)質(zhì)量,通過記分卡對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行評(píng)估,同時(shí)還要進(jìn)行實(shí)時(shí)的監(jiān)控,從流程、時(shí)間角度發(fā)現(xiàn)數(shù)據(jù)的變化。
數(shù)據(jù)質(zhì)量理論上不是完全可控的,要實(shí)現(xiàn)數(shù)據(jù)質(zhì)量提升,必須要做到指標(biāo)的可量化,通過量化指標(biāo)實(shí)現(xiàn)質(zhì)量可控。從技術(shù)層面講,要從以下六個(gè)角度去考量數(shù)據(jù)質(zhì)量,也稱為數(shù)據(jù)質(zhì)量的矩陣。包括:完備性(信息是否填寫全面)、符合性(數(shù)據(jù)是否按照標(biāo)準(zhǔn)格式進(jìn)行填寫)、一致性(是指內(nèi)部沖突,同一系統(tǒng)中兩個(gè)字段間相關(guān)推導(dǎo)和約束關(guān)系)、準(zhǔn)確性(包括數(shù)據(jù)是否真實(shí)有效和數(shù)據(jù)是否及時(shí)更新)、唯一性(多條信息是否相同和一致)以及完整性(從約束性和參考性方面考慮,數(shù)據(jù)相互間的參照關(guān)系)。當(dāng)然,企業(yè)是要根據(jù)自己的業(yè)務(wù)需求來(lái)確定考量數(shù)據(jù)質(zhì)量的指標(biāo)或體系,并不一定必須局限在這六個(gè)方面。
數(shù)據(jù)質(zhì)量提升并非一蹴而就
一個(gè)完整的數(shù)據(jù)質(zhì)量管理,是人、流程和技術(shù)的完美配合,這樣才能達(dá)到企業(yè)數(shù)據(jù)質(zhì)量管理的目標(biāo)。那數(shù)據(jù)質(zhì)量處理的流程是怎樣的呢?但彬告訴記者,對(duì)于數(shù)據(jù)質(zhì)量的處理,一般把它分成兩大部分,一是面向數(shù)據(jù)質(zhì)量的分析過程;二是針對(duì)分析結(jié)果進(jìn)行增強(qiáng)的過程。
先要識(shí)別和量化數(shù)據(jù)質(zhì)量,然后定義數(shù)據(jù)質(zhì)量和目標(biāo),接下來(lái)就要交給相關(guān)部門設(shè)計(jì)質(zhì)量提升的流程,其后就是實(shí)現(xiàn)質(zhì)量提升的流程,把原有低質(zhì)量數(shù)據(jù)變成高質(zhì)量數(shù)據(jù),并交付給業(yè)務(wù)人員使用。同時(shí),在整個(gè)環(huán)境中,還需要有相關(guān)的一些監(jiān)控和對(duì)比來(lái)評(píng)估是否達(dá)成了目標(biāo),決定是否需要進(jìn)行新一輪的數(shù)據(jù)質(zhì)量提升。這是一個(gè)周而復(fù)始、螺旋上升的過程,并不是一蹴而就,一次就可以解決全部問題。
Informatica四部分構(gòu)建數(shù)據(jù)質(zhì)量管理
通過Informatica構(gòu)建數(shù)據(jù)質(zhì)量管理主要分為四大部分。
首先是AnalyzeandPrfiling,通過對(duì)現(xiàn)有數(shù)據(jù)的詳細(xì)分析、描繪,來(lái)確定怎樣對(duì)他進(jìn)行處理和標(biāo)準(zhǔn)化;第二是StandardiseCleanse,標(biāo)準(zhǔn)化和清洗更容易讓計(jì)算機(jī)識(shí)別,比如數(shù)據(jù)可以通過什么樣的格式進(jìn)行限制和約束,進(jìn)行怎樣的交驗(yàn)就可以達(dá)到數(shù)據(jù)標(biāo)準(zhǔn)的要求,那些信息可以通過數(shù)據(jù)質(zhì)點(diǎn)或者參考數(shù)據(jù)進(jìn)行相關(guān)的標(biāo)準(zhǔn)化;第三是Match,標(biāo)準(zhǔn)化后要進(jìn)行相關(guān)的數(shù)據(jù)匹配,解決數(shù)據(jù)重復(fù)性問題,并保證數(shù)據(jù)的唯一性;第四是Consolidate,將重復(fù)數(shù)據(jù)進(jìn)行合并,最后運(yùn)用到不同的系統(tǒng)當(dāng)中。需要注意的是,在整個(gè)過程中我們都需要進(jìn)行相關(guān)的監(jiān)控。在我們?nèi)粘?shù)據(jù)中心的建設(shè)中,也可以對(duì)這幾部分進(jìn)行相關(guān)的延展或者精簡(jiǎn)來(lái)完善我們數(shù)據(jù)質(zhì)量管理的過程。
但彬重點(diǎn)介紹了Informatica最具特色的模糊匹配技術(shù)。在數(shù)據(jù)匹配關(guān)聯(lián)中,可以用到不同的匹配關(guān)聯(lián)技術(shù),比如在實(shí)現(xiàn)數(shù)據(jù)的精確快速匹配時(shí),可以先對(duì)數(shù)據(jù)進(jìn)行預(yù)覽,查看兩個(gè)數(shù)據(jù)的可匹配度是多少,再進(jìn)行分析來(lái)確定這種匹配是否適用于此種數(shù)據(jù)的匹配過程。如沒有精確匹配來(lái)保證匹配率,則可以采用模糊比對(duì)的方法。為此他舉了這樣一個(gè)例子(參見下圖),在人名比對(duì)中,可能因?yàn)槠匆艉?jiǎn)、繁體輸入問題造成一個(gè)人的數(shù)據(jù)信息不一致,王門騫的“騫”,一個(gè)是簡(jiǎn)體,一個(gè)是繁體,這兩個(gè)字在計(jì)算機(jī)編碼中并不一致,所以他們的名稱并不相等,這時(shí)就要對(duì)他的名字進(jìn)行模糊匹配打分,通過結(jié)果來(lái)分辯數(shù)據(jù)的可信度。比如設(shè)定0.8以上的數(shù)據(jù)為可信,那第二條王門騫就是可信的同一個(gè)人,而第二條陳東壁被判定不是同一個(gè)人。
結(jié)束語(yǔ)
現(xiàn)在,很多企業(yè)的數(shù)據(jù)中心,不僅僅只是一個(gè)最單純的面向數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)中心,而是既能支持業(yè)務(wù)運(yùn)營(yíng),又支持系統(tǒng)分析,還可進(jìn)行系統(tǒng)間的整合。在數(shù)據(jù)中心建設(shè)中,數(shù)據(jù)質(zhì)量需要從數(shù)據(jù)源端就開始進(jìn)行治理,治理到業(yè)務(wù)交互的各個(gè)過程。包括PowerCenter、DataQuality、MDMHub、Informatica9在內(nèi)的Informatica的數(shù)據(jù)質(zhì)量工具,可以將所有的業(yè)務(wù)邏輯和規(guī)則變成相關(guān)的一些服務(wù),由各個(gè)業(yè)務(wù)前端、各個(gè)業(yè)務(wù)處理過程中,對(duì)數(shù)據(jù)服務(wù)進(jìn)行調(diào)用,進(jìn)行相關(guān)的數(shù)據(jù)校驗(yàn)和數(shù)據(jù)清洗,這就是Informatica數(shù)據(jù)質(zhì)量平臺(tái)為企業(yè)數(shù)據(jù)中心建設(shè)所提供的支持和幫助。