數(shù)據(jù)準(zhǔn)備策略應(yīng)包含以下元素:
1. 對(duì)當(dāng)前和將來的業(yè)務(wù)問題有透徹的了解,期望數(shù)據(jù)能為企業(yè)帶來答案。
了解要應(yīng)用大數(shù)據(jù)分析的業(yè)務(wù)領(lǐng)域可以為數(shù)據(jù)建立業(yè)務(wù)環(huán)境,并有助于制定數(shù)據(jù)收集和執(zhí)行策略。此階段的目標(biāo)是確定企業(yè)中哪些數(shù)據(jù)與關(guān)鍵業(yè)務(wù)問題相關(guān),哪些無關(guān)。企業(yè)還可以隨著業(yè)務(wù)需求的變化擴(kuò)展業(yè)務(wù)問題和要查找的數(shù)據(jù),但是一開始最好還是密切關(guān)注數(shù)據(jù)。
2. 數(shù)據(jù)集中化。
數(shù)據(jù)必須規(guī)范化以便一致,并且企業(yè)中的每個(gè)人都使用相同的數(shù)據(jù)。因此,即使可以選擇針對(duì)特定業(yè)務(wù)領(lǐng)域填充此主數(shù)據(jù)的不同子集,也必須將所有分析數(shù)據(jù)存儲(chǔ)在IT維護(hù)的集中式存儲(chǔ)庫中。
3. 標(biāo)識(shí)必須饋入中央分析信息存儲(chǔ)庫的數(shù)據(jù)源。
一旦確定了業(yè)務(wù)案例和問題,就應(yīng)確定可用于匯總回答業(yè)務(wù)中緊迫問題的數(shù)據(jù)集和源。這些數(shù)據(jù)源可以來自企業(yè)內(nèi)部或外部。
4. 識(shí)別可能相關(guān)的未來數(shù)據(jù)源。
同時(shí),現(xiàn)在開始識(shí)別將來業(yè)務(wù)可能需要的其他數(shù)據(jù)集或源還為時(shí)過早。這些數(shù)據(jù)源最初不會(huì)準(zhǔn)備數(shù)據(jù),但是它們的標(biāo)識(shí)將為將來的數(shù)據(jù)準(zhǔn)備提供一個(gè)路線圖。
5. 定義的數(shù)據(jù)準(zhǔn)備方法。
有三個(gè)基本步驟可將干凈數(shù)據(jù)移入中央數(shù)據(jù)存儲(chǔ)庫。首先,從數(shù)據(jù)源中提取數(shù)據(jù)。然后,將其轉(zhuǎn)換為與其要到達(dá)的數(shù)據(jù)目標(biāo)兼容的格式。最后,將其加載到目標(biāo)存儲(chǔ)庫中。重要的部分是轉(zhuǎn)型。如果相同的數(shù)據(jù)字段將流入新的目的地,但該目的地的格式不同于原始目的地,則必須將數(shù)據(jù)轉(zhuǎn)換為新格式,以便數(shù)據(jù)正常工作并在目的地中保持一致。如果人工完成,這是一個(gè)繁瑣的步驟,因此需要自動(dòng)化工具。
6.選擇有效的數(shù)據(jù)準(zhǔn)備工具。市場上有許多數(shù)據(jù)準(zhǔn)備工具,因此建議企業(yè)嘗試使用它們,并與提供強(qiáng)大支持和培訓(xùn)的供應(yīng)商合作。目標(biāo)應(yīng)該是準(zhǔn)備數(shù)據(jù)以使其具有最高質(zhì)量,并選擇易于使用的工具,并提供自動(dòng)執(zhí)行數(shù)據(jù)準(zhǔn)備步驟的工具。