大數(shù)據(jù)就像是從當(dāng)代數(shù)據(jù)環(huán)境中不斷涌現(xiàn)出的豐富的、極度膨脹的資源。如今,不斷擴(kuò)張的物聯(lián)網(wǎng)、隨處可見的移動設(shè)備、社交媒體、點(diǎn)擊流量、網(wǎng)頁以及開放的數(shù)據(jù)都是導(dǎo)致我們今日數(shù)據(jù)不斷增長的的主要因素。根據(jù)IDC-Seagate最近的一項(xiàng)研究顯示,截止到2025年,這些因素的導(dǎo)致的全球數(shù)據(jù)增長預(yù)計(jì)將是現(xiàn)在的10倍,總計(jì)達(dá)到163ZB(ZB為十萬億億字節(jié))。
雖然數(shù)據(jù)資源富足,但這些數(shù)據(jù)都是最原始的、未經(jīng)提煉的,其中存在大量不能用的數(shù)據(jù)。與其他”自然”資源一樣,“原始的”數(shù)據(jù)必須經(jīng)過提煉后,才能被用于生產(chǎn)目的,例如設(shè)備維護(hù)、產(chǎn)品創(chuàng)新、競爭情報(bào)、市場營銷以及數(shù)據(jù)貨幣化等等。
數(shù)據(jù)細(xì)化、提煉的過程可以納入數(shù)據(jù)探查,準(zhǔn)備,關(guān)聯(lián)和背景化,標(biāo)注和注釋,統(tǒng)一和整合以及安全和治理政策的應(yīng)用。 元數(shù)據(jù)也是一個重要的組成部分,它在數(shù)據(jù)整體細(xì)化過程中輸入、輸出階段起著十分重要的作用。
其中,數(shù)據(jù)探查主要是對數(shù)據(jù)進(jìn)行技術(shù)性分析,對數(shù)據(jù)的內(nèi)容、一致性和結(jié)構(gòu)進(jìn)行描述。數(shù)據(jù)探查擔(dān)負(fù)著兩種不同的目標(biāo):戰(zhàn)略性的和戰(zhàn)術(shù)性的。
1)戰(zhàn)略性:一旦確定了某個候選數(shù)據(jù)源,就應(yīng)當(dāng)進(jìn)行一次輕量級的探查評估來確定該數(shù)據(jù)源是否適合于包含到數(shù)據(jù)倉庫中,針對早期的采納/不采納問題提供決策。理想情況下,應(yīng)當(dāng)在業(yè)務(wù)需求分析過程中確定出一個候選數(shù)據(jù)源之后立即進(jìn)行戰(zhàn)略性評估。較早地找出那些不合格的數(shù)據(jù)源是一個責(zé)任重大的步驟,即使帶來的是壞消息,也是必要的一步。如果很晚才發(fā)現(xiàn)數(shù)據(jù)源無法支持要做的工作,對DW/BI團(tuán)隊(duì)的積極性將產(chǎn)生重大的打擊,特別是當(dāng)項(xiàng)目已經(jīng)展開數(shù)月之后才發(fā)現(xiàn)數(shù)據(jù)源存在問題時更是如此;
2)戰(zhàn)術(shù)性:一旦將某個數(shù)據(jù)源引入項(xiàng)目的基本戰(zhàn)略決策已經(jīng)定下來,就需要進(jìn)行一系列戰(zhàn)術(shù)性的數(shù)據(jù)探查工作來盡可能多地確定出各種問題。通常這一工作從數(shù)據(jù)建模過程就開始了,一直到ETL系統(tǒng)設(shè)計(jì)過程。有時ETL團(tuán)隊(duì)也可能需要使用一個其內(nèi)容沒有經(jīng)過徹底評估的數(shù)據(jù)源。系統(tǒng)也可能支持產(chǎn)品過程的需求,但是卻存在ETL方面的難題,因?yàn)閷Ξa(chǎn)品處理并不重要的字段用來進(jìn)行分析也是不可靠和不完整的。
該子系統(tǒng)中揭示出來的問題最終會產(chǎn)生兩種詳細(xì)說明:
1)將數(shù)據(jù)送回原來的數(shù)據(jù)源中,請求改善數(shù)據(jù)質(zhì)量;
2)構(gòu)成了數(shù)據(jù)質(zhì)量子系統(tǒng)的需求。)
(備注:元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù),主要是描述數(shù)據(jù)屬性的信息,用來支持如指示存儲位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能。元數(shù)據(jù)算是一種電子式目錄,為了達(dá)到編制目錄的目的,必須在描述并收藏?cái)?shù)據(jù)的內(nèi)容或特色,進(jìn)而達(dá)成協(xié)助數(shù)據(jù)檢索的目的。)
如果還沒有為分析提供數(shù)據(jù),那么這些數(shù)據(jù)可能會受到碎片化、最小化標(biāo)記和丟失信息的影響。這些特征在電子健康記錄(EHRs)中很明顯,這說明了優(yōu)化數(shù)據(jù)面對的挑戰(zhàn)。收集和分析EHR數(shù)據(jù)的其中的一個障礙就是缺乏適當(dāng)?shù)臉?biāo)簽和一致的語義的缺乏。
EHRs的設(shè)計(jì)主要是為了滿足病人的醫(yī)療、行政和經(jīng)濟(jì)的需要。埃爾斯的多用途目標(biāo)——不考慮每一種數(shù)據(jù)的數(shù)據(jù)分析——可能造成數(shù)據(jù)碎片化,這需要在為臨床研究等分析提供數(shù)據(jù)之前進(jìn)行糾正。
從共享患者健康記錄中構(gòu)建數(shù)據(jù)集的另一個挑戰(zhàn)是在衛(wèi)生保健組織中如何實(shí)現(xiàn)EHRs的標(biāo)準(zhǔn)化,甚至在相同的衛(wèi)生保健系統(tǒng)中也缺乏標(biāo)準(zhǔn)化。。例如,不同的部門(例如:同一家醫(yī)院的放射學(xué)、整形和內(nèi)醫(yī)學(xué))可能采用不同的方法來滿足他們獨(dú)特的數(shù)據(jù)輸入需求、文檔和排序需求,以及偏好,因此,會產(chǎn)生數(shù)據(jù)倉。
(備注:電子健康記錄(EHR,electronic health record)是個人官方的健康記錄,這些記錄可以在多個設(shè)備和機(jī)構(gòu)中共享。一個電子健康記錄通常包括:聯(lián)系方式;訪問醫(yī)護(hù)專業(yè)人員信息;過敏史;醫(yī)療保險(xiǎn)信息;家族遺傳病史;免疫狀況;身體狀況或疾病信息;服用藥物清單;住院記錄;做手術(shù)信息等
事實(shí)上,數(shù)據(jù)安全和隱私也可能成為分析受監(jiān)管數(shù)據(jù)的障礙,比如在EHRs中??朔@一障礙的最佳方法是在細(xì)化過程中應(yīng)用適當(dāng)?shù)陌踩院椭卫?。谷歌等公司正在試?yàn)聯(lián)邦學(xué)習(xí),以推進(jìn)分析,同時確保隱私。
數(shù)據(jù)的優(yōu)化對于從數(shù)據(jù)分析中獲得可靠結(jié)果是至關(guān)重要的,數(shù)據(jù)分析包括有意義的結(jié)論、準(zhǔn)確的預(yù)測和明智的決策。
事實(shí)上,與任何虛擬化一樣,數(shù)據(jù)虛擬化是一種允許用戶訪問、管理和優(yōu)化異構(gòu)基礎(chǔ)架構(gòu)的方法,就好像它們是一種單一、且在邏輯上是統(tǒng)一的資源一樣。這使得用戶能夠從一些服務(wù)、功能或其他資源的內(nèi)部部署中對外部界面進(jìn)行抽象化。
與支持邏輯上統(tǒng)一的訪問、查詢、報(bào)告、預(yù)測分析,以及針對關(guān)系型、Hadoop、NoSQL等不同后端數(shù)據(jù)庫應(yīng)用的任何“SQL-虛擬化”解決方法相同,數(shù)據(jù)虛擬化的核心是抽象層。當(dāng)然,數(shù)據(jù)虛擬化可能會轉(zhuǎn)而依靠其他的基礎(chǔ)設(shè)施虛擬化層,例如存儲與服務(wù)器平臺。在某些情況下,數(shù)據(jù)虛擬化可能會在地理上和多云環(huán)境中進(jìn)行擴(kuò)張。
在我們討論的眾多層中,虛擬化無疑是這些枯燥數(shù)據(jù)話題的一個縮影。但是如果希望自己的大數(shù)據(jù)云平臺能夠解決以下業(yè)務(wù)需求,那么它們無疑是最基礎(chǔ)的。這些具體的業(yè)務(wù)需求是:
■基于彈性、靈活拓?fù)浣Y(jié)構(gòu)的先進(jìn)分析型資源
■汲取源自任何來源、格式和方案的純消費(fèi)性資源
■能夠留存、聚合、處理任何動靜結(jié)合信息的“延遲-靈敏”資源
■在價(jià)值鏈中擴(kuò)展,在私有云和公有云中擴(kuò)張的聯(lián)合資源
■能夠讓你通過現(xiàn)有工具和應(yīng)用,調(diào)整、擴(kuò)展和升級后端數(shù)據(jù)平臺的無縫互操作資源
理想情況下,精煉原始數(shù)據(jù)以生成完整而有意義的信息的過程如下:
構(gòu)建相關(guān)語義
處理數(shù)據(jù)異常
建立完整的、全面的、相關(guān)數(shù)據(jù)的視圖
充實(shí)下行流程的元數(shù)據(jù)
處理數(shù)據(jù)保護(hù)、隱私及合規(guī)性要求
利用數(shù)據(jù)虛擬化作為數(shù)據(jù)處理的三個優(yōu)點(diǎn):
1. 數(shù)據(jù)優(yōu)化的范圍
現(xiàn)代分析依賴于來自大量碎片數(shù)據(jù)源的數(shù)據(jù)。經(jīng)驗(yàn)表明,當(dāng)數(shù)據(jù)分布在多個系統(tǒng)時,大數(shù)據(jù)源并不總是能夠復(fù)制并遷移的。數(shù)據(jù)虛擬化通過提供替代性范式交付具有大數(shù)據(jù)源的有效工作范圍:將數(shù)據(jù)處理轉(zhuǎn)移到數(shù)據(jù)。換句話說,就是處理存在的數(shù)據(jù)并盡可能降低網(wǎng)絡(luò)流量。
(備注:數(shù)據(jù)虛擬化(Data virtualization)– 數(shù)據(jù)整合的過程,以此獲得更多的數(shù)據(jù)信息,這個過程通常會引入其他技術(shù),例如數(shù)據(jù)庫,應(yīng)用程序,文件系統(tǒng),網(wǎng)頁技術(shù),大數(shù)據(jù)技術(shù)等等。)
數(shù)據(jù)虛擬化帶來了數(shù)據(jù)優(yōu)化所需的速度和規(guī)模,而無需復(fù)制或重新定位數(shù)據(jù)源。它使用邏輯數(shù)據(jù)體系結(jié)構(gòu),使所有底層數(shù)據(jù)源都以單個系統(tǒng)的形式出現(xiàn)。它提供了多種優(yōu)化策略(例如:特定于平臺的優(yōu)化和下推處理),選擇特定優(yōu)化的智能,以及預(yù)先構(gòu)建的優(yōu)化庫,如MPP內(nèi)存中的處理。
(備注:MPP (Massively Parallel Processing),意為大規(guī)模并行處理系統(tǒng),這樣的系統(tǒng)是由許多松耦合處理單元組成的,要注意的是這里指的是處理單元而不是處理器。每個單元內(nèi)的CPU都有自己私有的資源,如總線、內(nèi)存、硬盤等。在每個單元內(nèi)都有操作系統(tǒng)和管理數(shù)據(jù)庫的實(shí)例復(fù)本。這種結(jié)構(gòu)最大的特點(diǎn)在于不共享資源。)
2. 負(fù)責(zé)數(shù)據(jù)共享
文化和法律障礙往往阻礙數(shù)據(jù)共享,這已成為大數(shù)據(jù)分析的主要組成部分。 數(shù)據(jù)隱私法規(guī)是令人信服的組織在新項(xiàng)目的每個設(shè)計(jì)和實(shí)施階段納入或以其他方式說明數(shù)據(jù)隱私的充分考慮。 數(shù)據(jù)虛擬化采用的中央方式,降低了遵守越來越多的活動數(shù)據(jù)隱私法規(guī)的成本,并允許通過設(shè)計(jì)包含數(shù)據(jù)隱私。
數(shù)據(jù)虛擬化的核心功能是使分布式數(shù)據(jù)保持在源代碼中,同時通過一個邏輯層將其暴露給消費(fèi)者。這種方法消除了對連續(xù)數(shù)據(jù)復(fù)制的需要。較少的復(fù)制可以減少組織中個人和敏感數(shù)據(jù)的副本,減少數(shù)據(jù)安全和治理方面的問題。
數(shù)據(jù)虛擬化還使組織能夠很容易地在整個組織中創(chuàng)建聚合的、一致的數(shù)據(jù)視圖,例如風(fēng)險(xiǎn)數(shù)據(jù)。這些視圖可以有選擇地共享,同時完全遵守組織的數(shù)據(jù)訪問和隱私策略。如圖1 所示
圖1數(shù)據(jù)訪問和隱私策略
數(shù)據(jù)虛擬化能克服以下主要信息共享方面的挑戰(zhàn):
·不同的數(shù)據(jù)源。使用數(shù)據(jù)虛擬化,可以輕松地將數(shù)據(jù)集成到各種內(nèi)部和外部系統(tǒng)中。
·不同的數(shù)據(jù)格式。數(shù)據(jù)虛擬化可以使用不同的技術(shù)和協(xié)議連接到不同格式的數(shù)據(jù)。這些復(fù)雜性被用戶和應(yīng)用程序所隱藏。
·不同的數(shù)據(jù)標(biāo)準(zhǔn)。使用查詢表或內(nèi)存映射,數(shù)據(jù)虛擬化可以集成數(shù)據(jù),即使它來自不同的標(biāo)準(zhǔn)。
·數(shù)據(jù)不完整。數(shù)據(jù)虛擬化允許將數(shù)據(jù)匯總在不同的系統(tǒng)中,以實(shí)現(xiàn)整體的視圖。
·未處理數(shù)據(jù)。對聚合數(shù)據(jù)進(jìn)行的數(shù)據(jù)計(jì)算(與部分,孤立數(shù)據(jù)相反)可以提供整個企業(yè)組織完整的風(fēng)險(xiǎn)視圖。
·敏感數(shù)據(jù)。數(shù)據(jù)虛擬化可以提供安全性和隱私功能,以便用戶只能看到他們被允許看到的數(shù)據(jù)。
3. 通用語義模型
企業(yè)用戶的形式及規(guī)模各不相同。因此,必須了解客戶是誰?(例如,他們是數(shù)據(jù)分析師,高級用戶,高管還是機(jī)器)。以及他們需要的數(shù)據(jù)(例如,預(yù)先聚合的,預(yù)先計(jì)算,特定精確,特定作用的還是特定領(lǐng)域的)是必需的。對于特定的機(jī)器而言,正確的標(biāo)記數(shù)據(jù)集對于有效的機(jī)器學(xué)習(xí)至關(guān)重要。在為分析提供數(shù)據(jù)時使用企業(yè)用戶了解的語言也是很重要的。使用業(yè)務(wù)用戶在提供數(shù)據(jù)進(jìn)行分析時了解的語言也很重要。 例如,帳戶適用于財(cái)務(wù)中的用戶,而客戶是客戶關(guān)懷中的用戶的首選術(shù)語。 支持多種語義是避免強(qiáng)迫用戶改變術(shù)語的關(guān)鍵。
圖2 支持不同信息精確度
由數(shù)據(jù)虛擬化驅(qū)動的通用語義模式可以為整個組織提供常見且統(tǒng)一的數(shù)據(jù)視圖。通過不被嵌入到單一的商業(yè)智能(BI)工具中,語義模型對于多個BI工具是通用的,并且可以訪問幾乎任何數(shù)據(jù)源。
數(shù)據(jù)虛擬化實(shí)現(xiàn)自助分析方面,完成下列目標(biāo):
·能夠快速方便地構(gòu)建靈活的語義模式
·提供具有保護(hù)措施的自助服務(wù)平臺
·既支持“data cowboys”(在一定范圍內(nèi))也支持常規(guī)業(yè)務(wù)用戶
·加快自我服務(wù)舉措(消除分析孤島),同時保持控制和治理
提供完整的、可信的、高質(zhì)量的信息對決策制定以及預(yù)測性和規(guī)范性分析都是至關(guān)重要的。數(shù)據(jù)虛擬化是滿足這一需求的理想技術(shù),這些組織力圖將數(shù)據(jù)用作戰(zhàn)略資產(chǎn)。當(dāng)然,要沿著“數(shù)據(jù)-虛擬化”路線走多遠(yuǎn),將取決于用戶業(yè)務(wù)需求和大數(shù)據(jù)環(huán)境的復(fù)雜性。此外,還取決于用戶對風(fēng)險(xiǎn)、復(fù)雜性和困難的承受程度。在未來,隨著分析模型、規(guī)則和大數(shù)據(jù)云上匯聚的信息日益復(fù)雜,平臺將成為虛擬化訪問、執(zhí)行和管理的核心。在這一新領(lǐng)域內(nèi),MapReduce將成為關(guān)鍵的(但并不是唯一的)開發(fā)框架。此外,MapReduce還將成為針對內(nèi)聯(lián)分析和交易計(jì)算的虛擬化架構(gòu)的一部分。不過,目前這一虛擬化架構(gòu)雖然涵蓋范圍更廣,但是大部分仍沒有被明確定義。