數(shù)據豐富,但不一定有用,因為其是以原始,沒有提煉的形式存在。與任何自然資源一樣,“粗”數(shù)據必須先進行細化,才能用于生產目的,如設備維護,產品創(chuàng)新,競爭情報,市場營銷,數(shù)據貨幣化,以及積極的醫(yī)療保健。其細化過程可以納入數(shù)據探索,準備,關聯(lián)和背景化,標注和注釋,統(tǒng)一和整合,以及安全和治理政策的應用。元數(shù)據也是一個重要的組成部分,因為它在整體數(shù)據細化過程的輸入和輸出階段起著重要的作用。
數(shù)據分析有助于得出無偏見的結論、準確的預測和有見地的決策,這取決于數(shù)據的準確性。如果尚未提供分析資料,數(shù)據可能會受到碎片,標簽和信息丟失的困擾。這些特征在電子健康記錄(EHR)中是顯而易見的,它們說明了數(shù)據精華的挑戰(zhàn)。收集和分析EHR數(shù)據的障礙是缺乏適當標簽和一致語義。
電子健康記錄(EHR)主要旨在滿足患者護理,行政和財務需求。目前尚未考慮數(shù)據分析的EHRs的多用途目標可能會造成數(shù)據碎片化,需要在將數(shù)據提供給臨床研究之前進行分析。
從共享患者健康記錄中構建數(shù)據集的另一個挑戰(zhàn)是,如何在保健機構之間甚至在同一個保健系統(tǒng)內部共享電子病歷。例如,同一所醫(yī)院的不同部門(例如放射科,整形外科醫(yī)師和內科醫(yī)生)可以使用不同的EHR來滿足其獨特的數(shù)據輸入要求,文檔和訂購需求,以及偏好,從而創(chuàng)建數(shù)據孤島。
數(shù)據安全和隱私也可能是分析監(jiān)管數(shù)據的障礙,例如電子健康記錄(EHR)中的數(shù)據??朔@一障礙的最佳方法是在精煉過程中應用適當?shù)陌踩椭卫泶胧?。谷歌等公司正在嘗試聯(lián)合學習,努力提高分析能力,同時確保人們的隱私安全。
數(shù)據細化對于從數(shù)據分析中獲得可靠的結果是至關重要的,包括有意義的結論,準確的預測和明智的決策。在理想情況下,精煉原始數(shù)據以產生完整和有意義的信息的過程如下:
•建立相關語義
•處理數(shù)據異常
•建立完整,全面的數(shù)據視角
•豐富下游流程的元數(shù)據
•處理數(shù)據保護,隱私和合規(guī)要求
數(shù)據虛擬化作為數(shù)據精煉廠有以下三大優(yōu)勢:
(1)煉油廠規(guī)模
現(xiàn)代分析依賴于無數(shù)分散的數(shù)據源的數(shù)據。經驗告訴人們,當數(shù)據分布在多個系統(tǒng)時,大數(shù)據源并不總是能夠復制和重新定位。數(shù)據虛擬化提供了大規(guī)模的數(shù)據源,通過提供替代范例:將數(shù)據處理移至數(shù)據。換句話說,處理其駐留的數(shù)據,并最大限度地減少網絡流量。
數(shù)據虛擬化帶來數(shù)據精化所需的速度和規(guī)模,無需復制或重新配置數(shù)據源。它使用邏輯數(shù)據架構,使所有底層數(shù)據源顯示為單個系統(tǒng)。它提供多種優(yōu)化策略(例如,特定于平臺的優(yōu)化和下推處理),智能選擇一個特定的優(yōu)化,以及諸如MPP內存中處理的預構建優(yōu)化庫。
(2)負責任的數(shù)據共享
①數(shù)據隱私設計
由于文化和法律障礙,往往阻礙數(shù)據共享,而數(shù)據共享已成為大數(shù)據分析的主要組成部分。數(shù)據隱私法規(guī)是令人信服的組織在新項目的每個設計和實施階段,都要納入或以其他方式充分考慮數(shù)據隱私的。數(shù)據虛擬化采用一種中心的方式,降低了遵從日益增多的主動數(shù)據隱私規(guī)則的成本,并允許通過設計包含數(shù)據隱私。
數(shù)據虛擬化的核心功能是使分布式數(shù)據保持在源頭,同時通過單一邏輯層將其暴露給消費者。這種方法不需要持續(xù)的數(shù)據復制。更少的復制就可以減少組織對個人和敏感數(shù)據的拷貝,減少數(shù)據安全和治理的問題。
數(shù)據虛擬化還使組織能夠輕松創(chuàng)建來自整個組織的數(shù)據(例如風險數(shù)據)的聚合一致的視圖。如圖1所示,這些視圖可以有選擇地共享,同時完全遵守組織的數(shù)據訪問和隱私策略。
圖1堅持數(shù)據訪問和隱私政策
②克服信息共享的挑戰(zhàn)
數(shù)據虛擬化克服了以下主要的信息共享挑戰(zhàn):
•不同的數(shù)據源。使用數(shù)據虛擬化,數(shù)據可以快速輕松地集成到無數(shù)的內部和外部系統(tǒng)中。
•不同的數(shù)據格式。數(shù)據虛擬化可以使用不同的技術和協(xié)議連接到不同格式的數(shù)據。這些復雜性被用戶和應用程序所隱藏。
•不同的數(shù)據標準。使用查找表或內存映射,數(shù)據虛擬化可以集成數(shù)據,即使它來自不同的標準。
•不完整的數(shù)據。數(shù)據虛擬化允許將數(shù)據匯集在一起,以實現(xiàn)整體的視圖。
•未處理的數(shù)據。對聚合數(shù)據執(zhí)行的數(shù)據計算(與局部孤立的數(shù)據相反)可以提供整個組織的風險的完整視圖。
•敏感數(shù)據。數(shù)據虛擬化提供安全和隱私功能,以便用戶只看到允許查看的數(shù)據。
(3)通用語義模型
業(yè)務用戶的規(guī)模各不相同。了解他們是誰(例如數(shù)據分析師,電力用戶,管理人員或機器)及其所需的數(shù)據(例如,預先聚合,預先計算,特定粒度,角色特定或域特定)是必須的。對于特定的機器,正確標記的數(shù)據集對于有效的機器學習是至關重要的。在為分析提供數(shù)據時,使用業(yè)務用戶理解的語言也是很重要的。例如賬戶對于財務中的用戶是合適的,而客戶則是客戶關心的用戶的首選項。它支持多個語義,避免強迫用戶改變術語本質。
圖2支持不同的信息粒度
由數(shù)據虛擬化提供的通用語義模型為整個組織提供了一個通用一致的數(shù)據視圖。由于不嵌入單個業(yè)務智能(BI)工具,語義模型對多個BI工具是通用的,幾乎可以訪問任何數(shù)據源。
數(shù)據虛擬化在實現(xiàn)自助服務分析方面實現(xiàn)了以下目標:
•可以快速輕松地構建靈活的語義模型
•提供帶有護欄的自助服務平臺
•支持“數(shù)據牛仔”(限制)和常規(guī)業(yè)務用戶
•加快自我服務舉措(消除分析孤島),同時保持控制和治理
提供完備的、可信的、高質量的信息對于決策以及預測性和規(guī)定性分析是至關重要的。數(shù)據虛擬化是一種理想的技術,可以滿足那些努力使用數(shù)據作為戰(zhàn)略資產的組織的需要。