許多組織管理數(shù)據(jù)科學團隊的方式就是讓他們各自為政。這些團隊專注于收集、清理和查詢非結構化或“大”數(shù)據(jù),但他們很少接觸來自交易處理系統(tǒng)和公司業(yè)務流程的數(shù)據(jù),甚至可能不是IT組的成員。由于數(shù)字化轉型,這些“孤立的”數(shù)據(jù)科學家和分析實驗室的分析師很快就會成為歷史。
公司幾乎要將一切東西數(shù)字化(如對大量紙質文檔、照片、視頻、CAD文檔、社交媒體新聞和錄音進行渲染),并創(chuàng)建大量未經開發(fā)的數(shù)據(jù)和非結構化數(shù)據(jù)。
隨著組織花錢將所有數(shù)據(jù)轉換成數(shù)字格式并以數(shù)字格式存儲,他們也期望從投資中獲得回報。最起碼地,他們希望查詢這些數(shù)據(jù),以獲取有助于業(yè)務的信息和洞察。
比如說,你正在查看重要客戶(如甲客戶)的購買模式。你可以查看CRM系統(tǒng)記錄,了解銷售人員與甲客戶聯(lián)系的次數(shù)以及結果。你的營銷部門可能希望將甲客戶購買的時間與公司在社交媒體上推廣產品的時間進行比較。如果甲客戶的購買模式發(fā)生了中斷,你的銷售部門和客服部門可能還希望察看客戶最后一次打電話提及產品保修或服務問題時的情緒分析。
首席信息官和IT領導者從中獲得的啟發(fā)是顯而易見的:如果你想全面了解你所要影響的特定客戶的情況,那么來自最近的數(shù)字化錄音和社交媒體內容等來源的非結構化數(shù)據(jù)必須與來自CRM等系統(tǒng)的交易數(shù)據(jù)一起使用。
系統(tǒng)集成和不同系統(tǒng)之間的數(shù)據(jù)共享的兩大難題向來是首席信息官的職責。但由于數(shù)字化轉型的全面進行,新的市場壓力如今也隨之產生,即更快、更準地實施這些集成。
以下是4個可以實現(xiàn)數(shù)字化轉型所要掌握的客戶全貌的最低要求。
系統(tǒng)集成和數(shù)據(jù)交換
系統(tǒng)集成以及相關的成本、時間和復雜性依然使公司犯難。由于數(shù)字化和混合IT架構的采用如今需要IT將不同的云平臺與其自身的內部數(shù)據(jù)中心系統(tǒng)集成,因此這一過程變得越來越復雜。CAD系統(tǒng)等來自網絡和其它數(shù)據(jù)源的非結構化數(shù)據(jù)并沒有使用固定的記錄格式,這增加了復雜性,因為現(xiàn)在有更多數(shù)據(jù)類型和數(shù)據(jù)源必須集成到一起。此外,并非所有傳入的數(shù)字數(shù)據(jù)都易于訪問或集成。例如,物聯(lián)網設備提供商可以采用特殊的專用通信協(xié)議,這使交換數(shù)據(jù)流和文件變得很困難。
如果公司希望IT手動實施數(shù)據(jù)集成,那么它們永遠都無法掌握因數(shù)字化而堆積起來的數(shù)據(jù)。雖然“手動”進行系統(tǒng)集成的做法尚未絕跡,但市場上還有一些工具可以與許多不同的系統(tǒng)接口配合使用,甚至可以與物聯(lián)網中常見的通信協(xié)議建立通信。
下一步是找到可以滿足你特定需求的工具。有一家醫(yī)療設備制造商的IT規(guī)劃負責人向首席信息官表示:“我們需要一個可以與后端IT系統(tǒng)配合使用的內部工作流程系統(tǒng)。我們使用的第一個工具做了一部分集成工作,但我們仍要處理XML,而執(zhí)行XML編程是一項艱巨的任務。我們決定研究更多工具,并找到一個不僅支持XML文件映射,而且支持電子郵件和HTML輸出的工具。該工具還具備用戶界面,這個界面可以讓我們在各種應用程序中使用這個工具。該軟件使我們能夠將制造流程與質量保證團隊相結合,同時提高性能。”
中央數(shù)據(jù)存儲庫
為了呈現(xiàn)客戶的全貌,非結構化數(shù)字內容和記錄數(shù)據(jù)的系統(tǒng)要么集中到數(shù)據(jù)倉庫,要么集中到分析可以執(zhí)行的大型數(shù)據(jù)存儲庫中。
例如,當批發(fā)商想更好地了解和服務客戶時,確保來自不同系統(tǒng)的數(shù)據(jù)(包括基于云的CRM系統(tǒng)、ERP系統(tǒng)和傳遞非結構化數(shù)據(jù)的網絡服務)可以協(xié)同工作并將數(shù)據(jù)提供給中央數(shù)據(jù)倉庫,這是實現(xiàn)這一目標的關鍵。這家制造商的信息戰(zhàn)略辦公室的高級管理者說:“為了維護所有與業(yè)務步調一致的系統(tǒng),我們必須將松散的系統(tǒng)所產生的功能變化對其它系統(tǒng)的影響降至最低。因此,我們決定取消點對點的系統(tǒng)結構,并使用EAI/ETL(企業(yè)應用程序集成/提取轉換加載工具)將數(shù)據(jù)和系統(tǒng)集成到一個集中式結構中。”
IT管理者可以從這個方法里得到兩個啟發(fā)。其一,用軟件驅動的自動化來提取、轉換和傳輸從數(shù)字化中積累的非結構化數(shù)據(jù)。其二,重新審視IT架構和作業(yè)流,趁用戶用于分析的數(shù)據(jù)還沒有在數(shù)據(jù)倉庫或中央數(shù)據(jù)存儲庫還沒有找到落腳點,盡快找到傳輸來自不同位置的數(shù)據(jù)的最有效的方法。
數(shù)據(jù)質量
低劣的數(shù)據(jù)質量會使公司付出了沉重代價。數(shù)據(jù)準確性解決方案提供商Naveego的首席執(zhí)行官Katie Horvath援引了IBM最近對財富一千強公司的一項調查。該調查得出的結論是,修復數(shù)據(jù)的費用為10美元/條,但組織會因為沒有做出決策或做出了錯誤的決策而付出高達100美元/條的代價。Horvath說:“組織并不明白數(shù)據(jù)健康問題的嚴重性。”
有很多組織在不清理數(shù)據(jù)的情況下攝取海量數(shù)據(jù),然后它們只能從垃圾堆里得到垃圾(即GIGO——輸入的是垃圾,輸出的也是垃圾)。新型的非結構化數(shù)據(jù)的擴散更是火上澆油。只要制定和數(shù)據(jù)質量有關的計劃和方法就可以避免這樣的尷尬。
人們應該處理或重新考慮數(shù)據(jù)保留的問題,不僅要針對交易數(shù)據(jù),還要針對來自互聯(lián)網、物聯(lián)網和其它數(shù)據(jù)源的海量非結構化數(shù)據(jù)。哪些數(shù)據(jù)要保留(以及哪些數(shù)據(jù)由于從未使用或很少使用而必須丟棄或轉用冷存儲,這必須用公司的信息政策來做出相應的處理。
剩下的數(shù)據(jù)一饋送進來就必須立即進行清理和糾錯??捎糜诎l(fā)現(xiàn)和修復損壞、不完整或不一致的數(shù)據(jù)的工具通常包含在市售的ETL(提取/轉換/加載)軟件中。
Horvath說:“數(shù)據(jù)清理是很多公司都關注的重點。在石油和天然氣行業(yè),我們發(fā)現(xiàn),有很多公司在油氣田中清理數(shù)據(jù),將數(shù)據(jù)標準化,使其可以在中央數(shù)據(jù)庫中使用。它們想維持數(shù)據(jù)質量并獲取在整個組織中保持高度一致的寶貴數(shù)據(jù),并且不必因為基于劣質數(shù)據(jù)所做錯誤決策而付出代價。
齊心協(xié)力的數(shù)據(jù)科學團隊和IT團隊
Gartner在2017年底的調查報告指出,“半數(shù)首席數(shù)據(jù)官現(xiàn)在直接向首席執(zhí)行官、首席運營官、首席財務官、總裁/所有人或董事會/股東等最高業(yè)務領導者匯報。到2021年,人們會認為首席數(shù)據(jù)官這一職能非常重要,可與75%的大型企業(yè)的IT、業(yè)務運營、人力資源和財務平起平坐。
隨著公司將數(shù)據(jù)進行數(shù)字化的工作漸漸取得進展,這是一個好消息。
然而,如果數(shù)據(jù)科學和IT各自為政,這就不是什么好消息了——因為大多數(shù)非結構化的“大數(shù)據(jù)”需要通過與管理數(shù)據(jù)相同的思路進行處理。因此,如果公司不能對來自各種系統(tǒng)和來源的交易數(shù)據(jù)和非交易數(shù)據(jù)進行分析,它們可能無法從數(shù)據(jù)中得到洞察。為此,企業(yè)IT(負責交易數(shù)據(jù))和數(shù)據(jù)科學(負責非結構化的數(shù)字化數(shù)據(jù))必須協(xié)作。
數(shù)據(jù)科學平臺提供商Domino Data Lab的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Nick Elprin在一篇關于KDnuggets的文章中對這種合作需求作了解釋。
Elprin:“有一家大型保險公司讓數(shù)十名科學家用很不配合的方式處理同樣的業(yè)務問題,結果投資虧本并錯失機會。擁有一群能創(chuàng)建模型的人,擁有一個善于利用資源(如利用集體智慧、技能和以往的勞動成果,從而以更快的價值生成時間共同創(chuàng)建越來越好的模型)的活躍團隊,這者是有區(qū)別的。
對首席信息官和IT決策者來說,數(shù)據(jù)科學、IT團隊和最終用戶只有緊密合作才能充分利用所有數(shù)據(jù)。人工智能公司fast.ai的創(chuàng)始人Rachel Thomas寫道:“如果將全部數(shù)據(jù)科學家安排在一個獨立的團隊中,這幾乎不可能使他們的工作與公司的部分進行適當?shù)恼?。垂直的產品團隊必須知道什么是可能的,以及如何更好地利用數(shù)據(jù)科學。”