在當(dāng)今的數(shù)據(jù)架構(gòu)中,治理已成為一個關(guān)鍵的組成部分。沒有它,公司可能會失去有意義的商業(yè)智能。
當(dāng)STEVE CRETNEY仔細查看存儲數(shù)量時,他從中發(fā)現(xiàn)了顛覆Colony BrandsIT戰(zhàn)略的細節(jié)。
“我們觀察到,在我們的SAN(存儲區(qū)域網(wǎng)絡(luò))中,有幾百TB的存儲,”Colony Brands公司的CIO Cretney說,該直銷零售商位于威斯康星州門羅。
其中的大部分,來源于操作系統(tǒng),一部分會用于分析,但大多數(shù)則打包,成了閑置數(shù)據(jù)。相比之下,Colony Brand的數(shù)據(jù)倉庫內(nèi)只包含10到15 TB的數(shù)據(jù),用于特定的業(yè)務(wù)分析和報告。 兩者之間的差異讓Cretney和他的團隊思考:如果數(shù)據(jù)科學(xué)團隊能夠獲取SAN里的數(shù)據(jù),會有什么發(fā)現(xiàn)呢?
Cretney,3年前加入Colony Brands,就一直深信云計算。為了能夠利用閑置數(shù)據(jù),并推動公司向云方向發(fā)展,他選擇了Amazon S3云存儲服務(wù),以及Amazon Redshift數(shù)據(jù)倉庫。他的計劃中,第一階段將在4月完成,不僅是將公司的數(shù)據(jù)倉庫功能遷移到云,還要使用數(shù)據(jù)湖開發(fā)公司數(shù)據(jù)。
數(shù)據(jù)湖,或數(shù)據(jù)中心,是一種在不犧牲數(shù)據(jù)結(jié)構(gòu)的情況下, 攝取數(shù)據(jù)的存儲倉庫和處理系統(tǒng),已經(jīng)成為現(xiàn)代數(shù)據(jù)架構(gòu)和大數(shù)據(jù)管理的同義詞。數(shù)據(jù)湖的優(yōu)勢,是它對于數(shù)據(jù)的攝取沒有嚴格的模式或處理要求,使企業(yè)更容易收集所有類型和大小的數(shù)據(jù)。而對于CIO和高級IT領(lǐng)導(dǎo)者,比較困難的部分是維持數(shù)據(jù)規(guī)則。專家認為,因為沒有預(yù)先設(shè)置的數(shù)據(jù)架構(gòu),數(shù)據(jù)湖治理,包括元數(shù)據(jù)管理,對于保持數(shù)據(jù)湖的原始狀態(tài)至關(guān)重要。
適合大數(shù)據(jù)的中央數(shù)據(jù)存儲庫一直以來,分析和商業(yè)智能的工作都是使用數(shù)據(jù)倉庫完成的,IT部門都嘗試過這一技術(shù),但在很多情況下,都失敗了,無法完成中央數(shù)據(jù)存儲庫。“數(shù)據(jù)倉庫和數(shù)據(jù)庫,本質(zhì)上都太貴了,而且過多受制于存儲和性能,因為要將所有的數(shù)據(jù)都存儲在一個地方,”Phil Shelley說,他是位于印度,提供Hadoop服務(wù)的DataMetica Solutions Private公司的顧問和總監(jiān)。
IT部門開始使用提取、轉(zhuǎn)換和加載(ETL)工,具“將數(shù)據(jù)分解成可管理的塊,然后將數(shù)據(jù)歸檔,”Shelley說。但是這樣做,會給分析師帶來耗時的任務(wù),不得不拼湊和追蹤可能藏在數(shù)據(jù)集市、數(shù)據(jù)庫和數(shù)據(jù)檔案內(nèi)的數(shù)據(jù)集。盡管如此,分析師可能只能獲得可用存儲中被認為有價值的數(shù)據(jù)集。“如果他們想要更久遠的數(shù)據(jù),或更多細節(jié),通常由于性能和成本原因,這些數(shù)據(jù)都不在他們的數(shù)據(jù)倉庫內(nèi),”Shelley說。
隨著企業(yè)比以往更迫切的需要利用更多的,更復(fù)雜的數(shù)據(jù),建立在廉價商用硬件,比如Hadoop上的文件系統(tǒng),提供了不同的方法。 “不需要使用傳統(tǒng)的ETL工具,我們可以幾乎實時的把所有的歷史數(shù)據(jù)和新數(shù)據(jù),都匯總到同一個地方,” Shelley說。
作為結(jié)果,建立的數(shù)據(jù)還提供了另一個優(yōu)勢: 不要求數(shù)據(jù)結(jié)構(gòu),使數(shù)據(jù)科學(xué)家不需要預(yù)先設(shè)計模式, 就可以分析數(shù)據(jù)。 二十年前,數(shù)據(jù)倉庫被視為一個可行的中央存儲庫,因為公司 “控制”用于分析的數(shù)據(jù)。
“我指的是你企業(yè)內(nèi)的數(shù)據(jù),比如SAP ERP系統(tǒng)的數(shù)據(jù),”紐約公司Caserta Concepts的創(chuàng)始人和總裁Joe Caserta說、, “但是現(xiàn)在我們會從未知的,而且不受我們控制的第三方獲取數(shù)據(jù)。”在攝取前, 要結(jié)構(gòu)化第三方的數(shù)據(jù)很困難,因為諸如數(shù)據(jù)是如何生成的,數(shù)據(jù)的內(nèi)容這些基本要素,是無法馬上獲知的。使用數(shù)據(jù)湖,公司可以擺脫死板的結(jié)構(gòu)-攝取-分析流程,轉(zhuǎn)而使用更靈活的攝取-分析-理解流程。“一旦我們理解了(數(shù)據(jù)),那么我們就可以結(jié)構(gòu)化,”Caserta說。
治理:不成功即失敗數(shù)據(jù)湖提供的相對靈活性也是要付出代價的:沒有數(shù)據(jù)湖治理,企業(yè)可能失去有意義的商業(yè)智能,甚至破產(chǎn)。
最近,在德克薩斯州舉行的Gartner Business Intelligence and Analytics Summit上,分析師Nick Heudecker說,一位消費服務(wù)行業(yè)的客戶,在它的關(guān)系數(shù)據(jù)庫表現(xiàn)不佳后,決定實施數(shù)據(jù)湖。但該公司的項目范圍太有限,主要集中在數(shù)據(jù)攝入。
“所有數(shù)據(jù)的上下文、數(shù)據(jù)來源、創(chuàng)建的原因、創(chuàng)建的人,都丟失了,”Heudecker說,“等到公司解決這個問題,再回到原來的平臺時,他們已經(jīng)失去了三分之二的顧客,幾乎破產(chǎn)。”
這是一個極端的事例,但是可以肯定的是,數(shù)據(jù)湖治理的重要性,包括數(shù)據(jù)目錄、索引和元數(shù)據(jù)管理,CIO都不應(yīng)該忽視。“這是一個巨大的挑戰(zhàn),”Colony Brands的Cretney說。“除非你有元數(shù)據(jù),要不你就丟失了上下文。”而這只是數(shù)據(jù)湖管理難題的一部分。Cretney還建議CIO考慮全面的數(shù)據(jù)湖治理,包括是誰引入的數(shù)據(jù)、誰負責(zé)數(shù)據(jù),以及數(shù)據(jù)的定義,以確保數(shù)據(jù)的妥善標(biāo)記和使用。
波士頓公司State Street的副總裁兼首席科學(xué)家David Saul表示完全同意。“如果最初你沒有健全的元數(shù)據(jù)集,用于描述數(shù)據(jù)、說明它代表了什么,然后就將它引入數(shù)據(jù)湖,這個情況比建立數(shù)據(jù)倉庫還要糟糕,”他說,“這樣可能更快,但你不知道數(shù)據(jù)湖里有什么。”
語義數(shù)據(jù)庫:“元數(shù)據(jù)的升級版”與傳統(tǒng)數(shù)據(jù)倉庫和其預(yù)定義的模式不同,Heudecker認為,數(shù)據(jù)湖既需要CIO們足夠的管理以提供必要的上下文,又不能過多的管理,壓制了數(shù)據(jù)湖提供的靈活性。
“這需要大量的工作,也可能變得很糟糕,”他說,“所以要慢慢來,找出你完成這一工作所需要的,然后開始。”
在State Street,數(shù)據(jù)湖是一個語義數(shù)據(jù)庫,利用了與創(chuàng)建網(wǎng)絡(luò)超鏈接相同的標(biāo)準和技術(shù)的概念模型。數(shù)據(jù)湖的優(yōu)勢,就是不強調(diào)任何數(shù)據(jù)結(jié)構(gòu),也是它的弱點,至少在Saul看來。“它不需要任何關(guān)于數(shù)據(jù)的語義、結(jié)構(gòu)或關(guān)系,”他說,“Hadoop是一個并行文件系統(tǒng),它運行的很好;它執(zhí)行得很快。但是你需要知道更多的數(shù)據(jù)含義,而不僅僅是文件系統(tǒng)和位置。”
語義數(shù)據(jù)庫,Saul稱之為“元數(shù)據(jù)的升級版”,為數(shù)據(jù)增加了一層上下文、定義數(shù)據(jù)的含義,以及和其他數(shù)據(jù)之間的相互關(guān)系。State Street的語義數(shù)據(jù)庫依賴萬維網(wǎng)聯(lián)盟的標(biāo)準來定義數(shù)據(jù)描述:語義數(shù)據(jù)表示模型被稱為資源描述框架(RDF),和一個Web本體語言,稱為OWL數(shù)據(jù)。使用這些標(biāo)準,State Street生成數(shù)據(jù)的語義信息,可以使用SQL查詢語言,SPARQL進行搜索。
Saul說,把語義數(shù)據(jù)庫看作為一個擁有成千上萬書籍的圖書館的卡片目錄。沒有它,找出一個特定的名稱是不可能的。“Hadoop就是如此,”他說,這種受歡迎的文件系統(tǒng)技術(shù)幾乎成為數(shù)據(jù)湖的代名詞。“否則你就必須一本書一本書,一頁一頁,逐字逐句地去尋找。”
多虧有了這一系統(tǒng)和元數(shù)據(jù),擁有一個健全的卡片目錄,就沒有艱苦的任務(wù)了。“只有語義模型能夠做到,文件系統(tǒng)是無法完成的,”他說。
對于State Street這樣的金融機構(gòu),監(jiān)管機構(gòu)要求數(shù)據(jù)歷史,數(shù)據(jù)從何而來,如何獲得,強大的數(shù)據(jù)治理是必須的。然而,傳統(tǒng)技術(shù)將數(shù)據(jù)保存在數(shù)據(jù)孤島中,可能導(dǎo)致視野狹窄,或者不良分析。數(shù)據(jù)湖,State Street使用的這一概念,提供了靈活性,以消除數(shù)據(jù)孤島。語義數(shù)據(jù)庫增加了一定程度的治理和元數(shù)據(jù)管理,保持數(shù)據(jù)湖良好的工作秩序。
“我認為數(shù)據(jù)湖被過分夸大,讓CIO們和(首席數(shù)據(jù)官)認為是一種高招,”Saul說,“如同數(shù)據(jù)管理中的一切,如果你不詳細管理,你就不會獲得你所期待的結(jié)果。”