亚洲色大成网站www在线观看,各种少妇正面BBW撒尿,1377人文艺术表演的点赞次数

如果大數(shù)據是原油，那么數(shù)據虛擬化就是煉油廠

責任編輯：cres

作者：Lakshmi Randall 譯者：HERO

2017-07-27 10:23:23

來源：企業(yè)網D1Net

原創(chuàng)

大數(shù)據就像是一個從現(xiàn)代數(shù)據景觀中涌現(xiàn)出來的豐富的自然資源。物聯(lián)網(傳感器)，移動設備，社交網絡，點擊流，網絡和開放數(shù)據是人們今天目睹的數(shù)據激增的重要因素。

大數(shù)據就像是一個從現(xiàn)代數(shù)據景觀中涌現(xiàn)出來的豐富的自然資源。物聯(lián)網(傳感器)，移動設備，社交網絡，點擊流，網絡和開放數(shù)據是人們今天目睹的數(shù)據激增的重要因素。根據調研機構IDC和硬盤廠商Seagate公司最近合作進行的一項研究顯示，到2025年，全球數(shù)據預計將增長十倍，將達到163 ZB。

數(shù)據豐富，但不一定有用，因為其是以原始，沒有提煉的形式存在。與任何自然資源一樣，“粗”數(shù)據必須先進行細化，才能用于生產目的，如設備維護，產品創(chuàng)新，競爭情報，市場營銷，數(shù)據貨幣化，以及積極的醫(yī)療保健。其細化過程可以納入數(shù)據探索，準備，關聯(lián)和背景化，標注和注釋，統(tǒng)一和整合，以及安全和治理政策的應用。元數(shù)據也是一個重要的組成部分，因為它在整體數(shù)據細化過程的輸入和輸出階段起著重要的作用。

數(shù)據分析有助于得出無偏見的結論、準確的預測和有見地的決策，這取決于數(shù)據的準確性。如果尚未提供分析資料，數(shù)據可能會受到碎片，標簽和信息丟失的困擾。這些特征在電子健康記錄(EHR)中是顯而易見的，它們說明了數(shù)據精華的挑戰(zhàn)。收集和分析EHR數(shù)據的障礙是缺乏適當標簽和一致語義。

電子健康記錄(EHR)主要旨在滿足患者護理，行政和財務需求。目前尚未考慮數(shù)據分析的EHRs的多用途目標可能會造成數(shù)據碎片化，需要在將數(shù)據提供給臨床研究之前進行分析。

從共享患者健康記錄中構建數(shù)據集的另一個挑戰(zhàn)是，如何在保健機構之間甚至在同一個保健系統(tǒng)內部共享電子病歷。例如，同一所醫(yī)院的不同部門(例如放射科，整形外科醫(yī)師和內科醫(yī)生)可以使用不同的EHR來滿足其獨特的數(shù)據輸入要求，文檔和訂購需求，以及偏好，從而創(chuàng)建數(shù)據孤島。

數(shù)據安全和隱私也可能是分析監(jiān)管數(shù)據的障礙，例如電子健康記錄(EHR)中的數(shù)據?？朔@一障礙的最佳方法是在精煉過程中應用適當?shù)陌踩椭卫泶胧?。谷歌等公司正在嘗試聯(lián)合學習，努力提高分析能力，同時確保人們的隱私安全。

數(shù)據細化對于從數(shù)據分析中獲得可靠的結果是至關重要的，包括有意義的結論，準確的預測和明智的決策。在理想情況下，精煉原始數(shù)據以產生完整和有意義的信息的過程如下：

•建立相關語義

•處理數(shù)據異常

•建立完整，全面的數(shù)據視角

•豐富下游流程的元數(shù)據

•處理數(shù)據保護，隱私和合規(guī)要求

數(shù)據虛擬化作為數(shù)據精煉廠有以下三大優(yōu)勢：

(1)煉油廠規(guī)模

現(xiàn)代分析依賴于無數(shù)分散的數(shù)據源的數(shù)據。經驗告訴人們，當數(shù)據分布在多個系統(tǒng)時，大數(shù)據源并不總是能夠復制和重新定位。數(shù)據虛擬化提供了大規(guī)模的數(shù)據源，通過提供替代范例：將數(shù)據處理移至數(shù)據。換句話說，處理其駐留的數(shù)據，并最大限度地減少網絡流量。

數(shù)據虛擬化帶來數(shù)據精化所需的速度和規(guī)模，無需復制或重新配置數(shù)據源。它使用邏輯數(shù)據架構，使所有底層數(shù)據源顯示為單個系統(tǒng)。它提供多種優(yōu)化策略(例如，特定于平臺的優(yōu)化和下推處理)，智能選擇一個特定的優(yōu)化，以及諸如MPP內存中處理的預構建優(yōu)化庫。

(2)負責任的數(shù)據共享

①數(shù)據隱私設計

由于文化和法律障礙，往往阻礙數(shù)據共享，而數(shù)據共享已成為大數(shù)據分析的主要組成部分。數(shù)據隱私法規(guī)是令人信服的組織在新項目的每個設計和實施階段，都要納入或以其他方式充分考慮數(shù)據隱私的。數(shù)據虛擬化采用一種中心的方式，降低了遵從日益增多的主動數(shù)據隱私規(guī)則的成本，并允許通過設計包含數(shù)據隱私。

數(shù)據虛擬化的核心功能是使分布式數(shù)據保持在源頭，同時通過單一邏輯層將其暴露給消費者。這種方法不需要持續(xù)的數(shù)據復制。更少的復制就可以減少組織對個人和敏感數(shù)據的拷貝，減少數(shù)據安全和治理的問題。

數(shù)據虛擬化還使組織能夠輕松創(chuàng)建來自整個組織的數(shù)據(例如風險數(shù)據)的聚合一致的視圖。如圖1所示，這些視圖可以有選擇地共享，同時完全遵守組織的數(shù)據訪問和隱私策略。

圖1堅持數(shù)據訪問和隱私政策

②克服信息共享的挑戰(zhàn)

數(shù)據虛擬化克服了以下主要的信息共享挑戰(zhàn)：

•不同的數(shù)據源。使用數(shù)據虛擬化，數(shù)據可以快速輕松地集成到無數(shù)的內部和外部系統(tǒng)中。

•不同的數(shù)據格式。數(shù)據虛擬化可以使用不同的技術和協(xié)議連接到不同格式的數(shù)據。這些復雜性被用戶和應用程序所隱藏。

•不同的數(shù)據標準。使用查找表或內存映射，數(shù)據虛擬化可以集成數(shù)據，即使它來自不同的標準。

•不完整的數(shù)據。數(shù)據虛擬化允許將數(shù)據匯集在一起，以實現(xiàn)整體的視圖。

•未處理的數(shù)據。對聚合數(shù)據執(zhí)行的數(shù)據計算(與局部孤立的數(shù)據相反)可以提供整個組織的風險的完整視圖。

•敏感數(shù)據。數(shù)據虛擬化提供安全和隱私功能，以便用戶只看到允許查看的數(shù)據。

(3)通用語義模型

業(yè)務用戶的規(guī)模各不相同。了解他們是誰(例如數(shù)據分析師，電力用戶，管理人員或機器)及其所需的數(shù)據(例如，預先聚合，預先計算，特定粒度，角色特定或域特定)是必須的。對于特定的機器，正確標記的數(shù)據集對于有效的機器學習是至關重要的。在為分析提供數(shù)據時，使用業(yè)務用戶理解的語言也是很重要的。例如賬戶對于財務中的用戶是合適的，而客戶則是客戶關心的用戶的首選項。它支持多個語義，避免強迫用戶改變術語本質。