數(shù)據(jù)管理需要對(duì)數(shù)據(jù)以及相應(yīng)的數(shù)據(jù)定義或元數(shù)據(jù)進(jìn)行適當(dāng)?shù)墓芾?。它旨在確保(元)數(shù)據(jù)質(zhì)量良好,因此是有效和高效管理決策的關(guān)鍵資源。數(shù)據(jù)質(zhì)量(DQ)通常被定義為“適合使用”,這意味著該概念的相對(duì)性質(zhì)。
在另一個(gè)決策環(huán)境中,即使是同一個(gè)業(yè)務(wù)用戶(hù),原來(lái)其質(zhì)量可接受的數(shù)據(jù)可能被認(rèn)為質(zhì)量較差。例如,分析性銷(xiāo)售預(yù)測(cè)任務(wù)的數(shù)據(jù)可能不能滿(mǎn)足會(huì)計(jì)任務(wù)數(shù)據(jù)的要求。
數(shù)據(jù)質(zhì)量決定了數(shù)據(jù)對(duì)業(yè)務(wù)的內(nèi)在價(jià)值。信息技術(shù)只是這個(gè)內(nèi)在價(jià)值的放大鏡。因此,高質(zhì)量的數(shù)據(jù)與有效的技術(shù)相結(jié)合是一項(xiàng)巨大的資產(chǎn),但低質(zhì)量的數(shù)據(jù)與有效的技術(shù)相結(jié)合也是一項(xiàng)巨大的責(zé)任。這有時(shí)也被稱(chēng)為GIGO或“無(wú)用輸入,無(wú)用輸出”原理,即使采用了最好的技術(shù),也會(huì)導(dǎo)致獲得錯(cuò)誤數(shù)據(jù)的結(jié)果。
基于無(wú)用數(shù)據(jù)做出的決策可以會(huì)讓企業(yè)損失數(shù)十億美元。而一個(gè)簡(jiǎn)單的例子是企業(yè)的客戶(hù)地址。據(jù)估計(jì),約有10%的客戶(hù)每年更換他們的地址。而過(guò)時(shí)或錯(cuò)誤的客戶(hù)地址可能對(duì)郵購(gòu)公司、包裹快遞提供商或政府服務(wù)產(chǎn)生重大影響。
糟糕的數(shù)據(jù)質(zhì)量(DQ)會(huì)以多種方式影響組織。在運(yùn)營(yíng)層面上,它會(huì)影響客戶(hù)滿(mǎn)意度,增加運(yùn)營(yíng)支出,并會(huì)導(dǎo)致員工工作滿(mǎn)意度下降。同樣,在戰(zhàn)略層面,它會(huì)影響決策過(guò)程的質(zhì)量。數(shù)據(jù)庫(kù)規(guī)模呈指數(shù)級(jí)增長(zhǎng),數(shù)據(jù)質(zhì)量(DQ)問(wèn)題的嚴(yán)重程度不斷加劇。這將使數(shù)據(jù)質(zhì)量管理成為當(dāng)今數(shù)據(jù)經(jīng)濟(jì)中最重要的商業(yè)挑戰(zhàn)之一。
組織正在獲得各種與數(shù)據(jù)管理相關(guān)的工作概況,以確保高數(shù)據(jù)質(zhì)量并將數(shù)據(jù)轉(zhuǎn)化為實(shí)際業(yè)務(wù)價(jià)值。以下將介紹信息架構(gòu)師、數(shù)據(jù)庫(kù)設(shè)計(jì)師、數(shù)據(jù)所有者、數(shù)據(jù)管理員、數(shù)據(jù)庫(kù)管理員和數(shù)據(jù)科學(xué)家的工作和內(nèi)容。而根據(jù)數(shù)據(jù)庫(kù)和企業(yè)的規(guī)模,可能會(huì)將多個(gè)配置文件合并到一個(gè)工作描述中。
(1)信息架構(gòu)師(也稱(chēng)為信息分析師)。信息架構(gòu)師負(fù)責(zé)設(shè)計(jì)概念數(shù)據(jù)模型,并與業(yè)務(wù)用戶(hù)進(jìn)行溝通和對(duì)話。其彌合了業(yè)務(wù)流程和IT環(huán)境之間的鴻溝,并與可能有助于選擇概念數(shù)據(jù)模型類(lèi)型(例如EER或UML)和數(shù)據(jù)庫(kù)建模工具的數(shù)據(jù)庫(kù)設(shè)計(jì)師密切合作。在數(shù)據(jù)準(zhǔn)確性和數(shù)據(jù)完整性方面,一個(gè)良好的概念數(shù)據(jù)模型是存儲(chǔ)高質(zhì)量數(shù)據(jù)的關(guān)鍵要求。
(2)數(shù)據(jù)庫(kù)設(shè)計(jì)師。其職責(zé)是將概念數(shù)據(jù)模型轉(zhuǎn)換為邏輯和內(nèi)部數(shù)據(jù)模型,協(xié)助應(yīng)用程序開(kāi)發(fā)人員定義外部數(shù)據(jù)模型的視圖,從而有助于數(shù)據(jù)安全。為了便于將來(lái)對(duì)數(shù)據(jù)庫(kù)應(yīng)用程序進(jìn)行維護(hù),數(shù)據(jù)庫(kù)設(shè)計(jì)人員在創(chuàng)建強(qiáng)制實(shí)現(xiàn)數(shù)據(jù)一致性的各種數(shù)據(jù)模型時(shí),應(yīng)定義公司范圍的統(tǒng)一命名約定。
組織中每個(gè)數(shù)據(jù)庫(kù)中的每個(gè)數(shù)據(jù)字段都應(yīng)由數(shù)據(jù)所有者擁有,數(shù)據(jù)所有者有權(quán)決定是否訪問(wèn)和使用數(shù)據(jù)。數(shù)據(jù)所有者可能是數(shù)據(jù)的原始生產(chǎn)者,其消費(fèi)者之一或第三方。數(shù)據(jù)所有者應(yīng)該能夠填寫(xiě)或更新其值,這意味著數(shù)據(jù)所有者知道該字段的含義,并可以訪問(wèn)當(dāng)前的正確值(例如通過(guò)聯(lián)系客戶(hù)、查看文件等)。數(shù)據(jù)管理員可以要求數(shù)據(jù)所有者檢查或完成某個(gè)字段的值,以糾正數(shù)據(jù)質(zhì)量問(wèn)題。
(3)數(shù)據(jù)管理員。數(shù)據(jù)管理員是數(shù)據(jù)質(zhì)量(DQ)專(zhuān)家,負(fù)責(zé)確保實(shí)際業(yè)務(wù)數(shù)據(jù)和相應(yīng)元數(shù)據(jù)的質(zhì)量。他們通過(guò)執(zhí)行廣泛和定期的數(shù)據(jù)質(zhì)量檢查來(lái)評(píng)估數(shù)據(jù)質(zhì)量(DQ)。除其他評(píng)估步驟外,這些檢查涉及應(yīng)用或計(jì)算最相關(guān)的數(shù)據(jù)質(zhì)量(DQ)維度的數(shù)據(jù)質(zhì)量指標(biāo)和指標(biāo)。
顯然,他們也需要主動(dòng)采取行動(dòng),并進(jìn)一步處理這些評(píng)估的結(jié)果。第一類(lèi)應(yīng)采取的措施是采取糾正措施。但是,數(shù)據(jù)管理員不負(fù)責(zé)自行更正數(shù)據(jù),因?yàn)檫@通常是數(shù)據(jù)所有者的責(zé)任。對(duì)數(shù)據(jù)質(zhì)量評(píng)估結(jié)果采取的第二種行動(dòng)涉及深入調(diào)查所發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題的根本原因。
了解這些原因可能允許設(shè)計(jì)旨在消除數(shù)據(jù)質(zhì)量問(wèn)題的預(yù)防措施。預(yù)防措施可能包括修改數(shù)據(jù)來(lái)源的操作信息系統(tǒng)(例如,使字段成為強(qiáng)制性的,提供可能值的下拉列表,使界面合理化等)。
此外,系統(tǒng)中輸入的值可能會(huì)立即根據(jù)預(yù)定義的完整性規(guī)則進(jìn)行有效性檢查,并且如果違反這些規(guī)則,可能會(huì)要求用戶(hù)更正數(shù)據(jù)。例如,企業(yè)稅務(wù)門(mén)戶(hù)可能會(huì)要求員工根據(jù)其社會(huì)安全號(hào)碼進(jìn)行識(shí)別,可以通過(guò)聯(lián)系社會(huì)安全號(hào)碼數(shù)據(jù)庫(kù)實(shí)時(shí)檢查。顯然,實(shí)施這些預(yù)防措施需要負(fù)責(zé)應(yīng)用程序的IT部門(mén)主管的密切參與。
總體而言,防止錯(cuò)誤數(shù)據(jù)進(jìn)入系統(tǒng)通常比事后糾正錯(cuò)誤更具成本效益。但是,由于輸入數(shù)據(jù)中存在不必要的數(shù)據(jù)質(zhì)量問(wèn)題,因此應(yīng)注意不要減慢關(guān)鍵流程。
(4)數(shù)據(jù)庫(kù)管理員(DBA)。其職責(zé)是負(fù)責(zé)實(shí)施和監(jiān)視數(shù)據(jù)庫(kù)。其工作內(nèi)容包括:安裝和升級(jí)DBMS軟件、備份和恢復(fù)管理、性能調(diào)整和監(jiān)控、內(nèi)存管理、復(fù)制管理、安全性和授權(quán)等。數(shù)據(jù)庫(kù)管理員(DBA)與網(wǎng)絡(luò)和系統(tǒng)管理員密切合作。
其還與數(shù)據(jù)庫(kù)設(shè)計(jì)人員進(jìn)行交流,以降低運(yùn)營(yíng)管理成本,并保證達(dá)成一致的服務(wù)水平(例如響應(yīng)時(shí)間和吞吐率)。數(shù)據(jù)庫(kù)管理員(DBA)可以提供數(shù)據(jù)可用性和可訪問(wèn)性,以及其他兩個(gè)關(guān)鍵數(shù)據(jù)質(zhì)量維度。
(5)數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)家在數(shù)據(jù)管理的背景下是一個(gè)相對(duì)較新的職位。其負(fù)責(zé)使用最先進(jìn)的分析技術(shù)分析數(shù)據(jù),以提供新的見(jiàn)解,例如客戶(hù)行為。數(shù)據(jù)科學(xué)家具有將ICT技能(如編程)與定量建模(例如統(tǒng)計(jì))、業(yè)務(wù)理解、溝通和創(chuàng)造力相結(jié)合的多學(xué)科特征。
一位優(yōu)秀的數(shù)據(jù)科學(xué)家應(yīng)該擁有Java、R、Python、SAS等語(yǔ)言的良好編程能力。編程語(yǔ)言本身并不重要,只要數(shù)據(jù)科學(xué)家熟悉編程的基本概念,并知道如何使用這些來(lái)自動(dòng)執(zhí)行重復(fù)任務(wù)或執(zhí)行特定例程即可。
顯然,數(shù)據(jù)科學(xué)家應(yīng)該有統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和/或定量建模方面的全面背景。從本質(zhì)上講,數(shù)據(jù)科學(xué)是一項(xiàng)技術(shù)練習(xí)。分析模型和商業(yè)用戶(hù)之間往往存在巨大差距。為彌合這一差距,溝通和可視化設(shè)施是關(guān)鍵。數(shù)據(jù)科學(xué)家應(yīng)該知道如何通過(guò)使用交通信號(hào)燈方法,OLAP(在線分析處理)設(shè)施,如果當(dāng)時(shí)的業(yè)務(wù)規(guī)則等以用戶(hù)友好的方式表示分析模型、附帶的統(tǒng)計(jì)數(shù)據(jù)和報(bào)告。
數(shù)據(jù)科學(xué)家至少需要兩個(gè)層面的創(chuàng)造力:在技??術(shù)層面上,重要的是在數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換和清理方面進(jìn)行創(chuàng)新。在分析層面上,標(biāo)準(zhǔn)分析過(guò)程的步驟必須適應(yīng)每個(gè)特定的應(yīng)用,而“正確的猜測(cè)”往往可以產(chǎn)生很大的差異。分析是一個(gè)快速發(fā)展的領(lǐng)域。
新的問(wèn)題、技術(shù)和相應(yīng)的挑戰(zhàn)不斷涌現(xiàn)。數(shù)據(jù)科學(xué)家必須跟上這些新的發(fā)展和技術(shù)發(fā)展的步伐,并且有足夠的創(chuàng)造力來(lái)看待他們?nèi)绾文軌騽?chuàng)造新的商業(yè)機(jī)會(huì)。這些數(shù)據(jù)科學(xué)家在當(dāng)今的就業(yè)市場(chǎng)很難獲得,這并不奇怪。然而,數(shù)據(jù)科學(xué)家有助于提供新的數(shù)據(jù)和/或見(jiàn)解,這可以讓企業(yè)利用新的戰(zhàn)略商業(yè)機(jī)會(huì)。
總而言之,確保高質(zhì)量的數(shù)據(jù)是綜合各種技能的多學(xué)科練習(xí)。在此從數(shù)據(jù)質(zhì)量的角度回顧了以下數(shù)據(jù)管理作業(yè)配置文件:信息架構(gòu)師、數(shù)據(jù)庫(kù)設(shè)計(jì)師、數(shù)據(jù)所有者、數(shù)據(jù)管理員、數(shù)據(jù)庫(kù)管理員、數(shù)據(jù)科學(xué)家。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。