亚洲中文字幕无码专区,五十路熟妇亲子交尾

數(shù)據(jù)湖：不治理便破產(chǎn)

責(zé)任編輯：editor005

作者：Nicole Laskowski

2016-06-06 14:28:53

摘自：TechTarget中國

在當(dāng)今的數(shù)據(jù)架構(gòu)中，治理已成為一個關(guān)鍵的組成部分。治理：不成功即失敗　　數(shù)據(jù)湖提供的相對靈活性也是要付出代價的：沒有數(shù)據(jù)湖治理，企業(yè)可能失去有意義的商業(yè)智能，甚至破產(chǎn)。

在當(dāng)今的數(shù)據(jù)架構(gòu)中，治理已成為一個關(guān)鍵的組成部分。沒有它，公司可能會失去有意義的商業(yè)智能。

當(dāng)STEVE CRETNEY仔細查看存儲數(shù)量時，他從中發(fā)現(xiàn)了顛覆Colony BrandsIT戰(zhàn)略的細節(jié)。

“我們觀察到，在我們的SAN(存儲區(qū)域網(wǎng)絡(luò))中，有幾百TB的存儲，”Colony Brands公司的CIO Cretney說，該直銷零售商位于威斯康星州門羅。

其中的大部分，來源于操作系統(tǒng)，一部分會用于分析，但大多數(shù)則打包，成了閑置數(shù)據(jù)。相比之下，Colony Brand的數(shù)據(jù)倉庫內(nèi)只包含10到15 TB的數(shù)據(jù)，用于特定的業(yè)務(wù)分析和報告。兩者之間的差異讓Cretney和他的團隊思考：如果數(shù)據(jù)科學(xué)團隊能夠獲取SAN里的數(shù)據(jù)，會有什么發(fā)現(xiàn)呢？

Cretney，3年前加入Colony Brands，就一直深信云計算。為了能夠利用閑置數(shù)據(jù)，并推動公司向云方向發(fā)展，他選擇了Amazon S3云存儲服務(wù)，以及Amazon Redshift數(shù)據(jù)倉庫。他的計劃中，第一階段將在4月完成，不僅是將公司的數(shù)據(jù)倉庫功能遷移到云，還要使用數(shù)據(jù)湖開發(fā)公司數(shù)據(jù)。

數(shù)據(jù)湖，或數(shù)據(jù)中心，是一種在不犧牲數(shù)據(jù)結(jié)構(gòu)的情況下，攝取數(shù)據(jù)的存儲倉庫和處理系統(tǒng)，已經(jīng)成為現(xiàn)代數(shù)據(jù)架構(gòu)和大數(shù)據(jù)管理的同義詞。數(shù)據(jù)湖的優(yōu)勢，是它對于數(shù)據(jù)的攝取沒有嚴格的模式或處理要求，使企業(yè)更容易收集所有類型和大小的數(shù)據(jù)。而對于CIO和高級IT領(lǐng)導(dǎo)者，比較困難的部分是維持數(shù)據(jù)規(guī)則。專家認為，因為沒有預(yù)先設(shè)置的數(shù)據(jù)架構(gòu)，數(shù)據(jù)湖治理，包括元數(shù)據(jù)管理，對于保持數(shù)據(jù)湖的原始狀態(tài)至關(guān)重要。

適合大數(shù)據(jù)的中央數(shù)據(jù)存儲庫

一直以來，分析和商業(yè)智能的工作都是使用數(shù)據(jù)倉庫完成的，IT部門都嘗試過這一技術(shù)，但在很多情況下，都失敗了，無法完成中央數(shù)據(jù)存儲庫。“數(shù)據(jù)倉庫和數(shù)據(jù)庫，本質(zhì)上都太貴了，而且過多受制于存儲和性能，因為要將所有的數(shù)據(jù)都存儲在一個地方，”Phil Shelley說，他是位于印度，提供Hadoop服務(wù)的DataMetica Solutions Private公司的顧問和總監(jiān)。

IT部門開始使用提取、轉(zhuǎn)換和加載(ETL)工，具“將數(shù)據(jù)分解成可管理的塊，然后將數(shù)據(jù)歸檔，”Shelley說。但是這樣做，會給分析師帶來耗時的任務(wù)，不得不拼湊和追蹤可能藏在數(shù)據(jù)集市、數(shù)據(jù)庫和數(shù)據(jù)檔案內(nèi)的數(shù)據(jù)集。盡管如此，分析師可能只能獲得可用存儲中被認為有價值的數(shù)據(jù)集。“如果他們想要更久遠的數(shù)據(jù)，或更多細節(jié)，通常由于性能和成本原因，這些數(shù)據(jù)都不在他們的數(shù)據(jù)倉庫內(nèi)，”Shelley說。

隨著企業(yè)比以往更迫切的需要利用更多的，更復(fù)雜的數(shù)據(jù)，建立在廉價商用硬件，比如Hadoop上的文件系統(tǒng)，提供了不同的方法。 “不需要使用傳統(tǒng)的ETL工具，我們可以幾乎實時的把所有的歷史數(shù)據(jù)和新數(shù)據(jù)，都匯總到同一個地方，” Shelley說。

作為結(jié)果，建立的數(shù)據(jù)還提供了另一個優(yōu)勢：不要求數(shù)據(jù)結(jié)構(gòu)，使數(shù)據(jù)科學(xué)家不需要預(yù)先設(shè)計模式，就可以分析數(shù)據(jù)。二十年前，數(shù)據(jù)倉庫被視為一個可行的中央存儲庫，因為公司 “控制”用于分析的數(shù)據(jù)。

“我指的是你企業(yè)內(nèi)的數(shù)據(jù)，比如SAP ERP系統(tǒng)的數(shù)據(jù)，”紐約公司Caserta Concepts的創(chuàng)始人和總裁Joe Caserta說、， “但是現(xiàn)在我們會從未知的，而且不受我們控制的第三方獲取數(shù)據(jù)。”在攝取前，要結(jié)構(gòu)化第三方的數(shù)據(jù)很困難，因為諸如數(shù)據(jù)是如何生成的，數(shù)據(jù)的內(nèi)容這些基本要素，是無法馬上獲知的。使用數(shù)據(jù)湖，公司可以擺脫死板的結(jié)構(gòu)-攝取-分析流程，轉(zhuǎn)而使用更靈活的攝取-分析-理解流程。“一旦我們理解了(數(shù)據(jù))，那么我們就可以結(jié)構(gòu)化，”Caserta說。

治理：不成功即失敗

數(shù)據(jù)湖提供的相對靈活性也是要付出代價的：沒有數(shù)據(jù)湖治理，企業(yè)可能失去有意義的商業(yè)智能，甚至破產(chǎn)。

最近，在德克薩斯州舉行的Gartner Business Intelligence and Analytics Summit上，分析師Nick Heudecker說，一位消費服務(wù)行業(yè)的客戶，在它的關(guān)系數(shù)據(jù)庫表現(xiàn)不佳后，決定實施數(shù)據(jù)湖。但該公司的項目范圍太有限，主要集中在數(shù)據(jù)攝入。

“所有數(shù)據(jù)的上下文、數(shù)據(jù)來源、創(chuàng)建的原因、創(chuàng)建的人，都丟失了，”Heudecker說，“等到公司解決這個問題，再回到原來的平臺時，他們已經(jīng)失去了三分之二的顧客，幾乎破產(chǎn)。”

這是一個極端的事例，但是可以肯定的是，數(shù)據(jù)湖治理的重要性，包括數(shù)據(jù)目錄、索引和元數(shù)據(jù)管理，CIO都不應(yīng)該忽視。“這是一個巨大的挑戰(zhàn)，”Colony Brands的Cretney說。“除非你有元數(shù)據(jù)，要不你就丟失了上下文。”而這只是數(shù)據(jù)湖管理難題的一部分。Cretney還建議CIO考慮全面的數(shù)據(jù)湖治理，包括是誰引入的數(shù)據(jù)、誰負責(zé)數(shù)據(jù)，以及數(shù)據(jù)的定義，以確保數(shù)據(jù)的妥善標(biāo)記和使用。

波士頓公司State Street的副總裁兼首席科學(xué)家David Saul表示完全同意。“如果最初你沒有健全的元數(shù)據(jù)集，用于描述數(shù)據(jù)、說明它代表了什么，然后就將它引入數(shù)據(jù)湖，這個情況比建立數(shù)據(jù)倉庫還要糟糕，”他說，“這樣可能更快，但你不知道數(shù)據(jù)湖里有什么。”

語義數(shù)據(jù)庫：“元數(shù)據(jù)的升級版”

與傳統(tǒng)數(shù)據(jù)倉庫和其預(yù)定義的模式不同，Heudecker認為，數(shù)據(jù)湖既需要CIO們足夠的管理以提供必要的上下文，又不能過多的管理，壓制了數(shù)據(jù)湖提供的靈活性。

“這需要大量的工作，也可能變得很糟糕，”他說，“所以要慢慢來，找出你完成這一工作所需要的，然后開始。”

在State Street，數(shù)據(jù)湖是一個語義數(shù)據(jù)庫，利用了與創(chuàng)建網(wǎng)絡(luò)超鏈接相同的標(biāo)準和技術(shù)的概念模型。數(shù)據(jù)湖的優(yōu)勢，就是不強調(diào)任何數(shù)據(jù)結(jié)構(gòu)，也是它的弱點，至少在Saul看來。“它不需要任何關(guān)于數(shù)據(jù)的語義、結(jié)構(gòu)或關(guān)系，”他說，“Hadoop是一個并行文件系統(tǒng)，它運行的很好；它執(zhí)行得很快。但是你需要知道更多的數(shù)據(jù)含義，而不僅僅是文件系統(tǒng)和位置。”

語義數(shù)據(jù)庫，Saul稱之為“元數(shù)據(jù)的升級版”，為數(shù)據(jù)增加了一層上下文、定義數(shù)據(jù)的含義，以及和其他數(shù)據(jù)之間的相互關(guān)系。State Street的語義數(shù)據(jù)庫依賴萬維網(wǎng)聯(lián)盟的標(biāo)準來定義數(shù)據(jù)描述：語義數(shù)據(jù)表示模型被稱為資源描述框架(RDF)，和一個Web本體語言，稱為OWL數(shù)據(jù)。使用這些標(biāo)準，State Street生成數(shù)據(jù)的語義信息，可以使用SQL查詢語言，SPARQL進行搜索。

Saul說，把語義數(shù)據(jù)庫看作為一個擁有成千上萬書籍的圖書館的卡片目錄。沒有它，找出一個特定的名稱是不可能的。“Hadoop就是如此，”他說，這種受歡迎的文件系統(tǒng)技術(shù)幾乎成為數(shù)據(jù)湖的代名詞。“否則你就必須一本書一本書，一頁一頁，逐字逐句地去尋找。”

多虧有了這一系統(tǒng)和元數(shù)據(jù)，擁有一個健全的卡片目錄，就沒有艱苦的任務(wù)了。“只有語義模型能夠做到，文件系統(tǒng)是無法完成的，”他說。

對于State Street這樣的金融機構(gòu)，監(jiān)管機構(gòu)要求數(shù)據(jù)歷史，數(shù)據(jù)從何而來，如何獲得，強大的數(shù)據(jù)治理是必須的。然而，傳統(tǒng)技術(shù)將數(shù)據(jù)保存在數(shù)據(jù)孤島中，可能導(dǎo)致視野狹窄，或者不良分析。數(shù)據(jù)湖，State Street使用的這一概念，提供了靈活性，以消除數(shù)據(jù)孤島。語義數(shù)據(jù)庫增加了一定程度的治理和元數(shù)據(jù)管理，保持數(shù)據(jù)湖良好的工作秩序。

“我認為數(shù)據(jù)湖被過分夸大，讓CIO們和(首席數(shù)據(jù)官)認為是一種高招，”Saul說，“如同數(shù)據(jù)管理中的一切，如果你不詳細管理，你就不會獲得你所期待的結(jié)果。”

數(shù)據(jù)湖本體語言語義模型