數(shù)據(jù)湖前途未卜?

責(zé)任編輯:editor005

作者:Mike Matchett

2015-10-26 14:21:27

摘自:TechTarget中國

大數(shù)據(jù)對于商務(wù)人士來說是讓人興奮的產(chǎn)物,許多的大數(shù)據(jù)殺手級應(yīng)用將不斷出現(xiàn)。數(shù)據(jù)湖的價(jià)值取決于我們的數(shù)據(jù),大規(guī)模的部署向外擴(kuò)展的共享架構(gòu)將使許多組織從數(shù)據(jù)湖(至少是數(shù)據(jù)池)中汲取養(yǎng)分。

大數(shù)據(jù)對于商務(wù)人士來說是讓人興奮的產(chǎn)物,許多的大數(shù)據(jù)殺手級應(yīng)用將不斷出現(xiàn)。對于存儲(chǔ)管理員來說,存儲(chǔ)基礎(chǔ)設(shè)施將不斷增長,這是毫無疑問的。你一直都在所有客戶中收集終端用戶每毫秒的行為數(shù)據(jù),想象一下如果你可以立即查看所有數(shù)據(jù),不需要考慮數(shù)據(jù)監(jiān)管、數(shù)據(jù)管理、數(shù)據(jù)保護(hù)和其它所有相關(guān)的煩惱,你需要做的只是把你所有的數(shù)據(jù)放到一個(gè)相對廉價(jià)又具備擴(kuò)展性的Hadoop存儲(chǔ)中,這是多么令人期待的事!

大數(shù)據(jù)湖能夠滿足不斷增長的數(shù)據(jù)需求,并為你的業(yè)務(wù)提供有價(jià)值的服務(wù)。通過將不同來源的數(shù)據(jù)集采集到一個(gè)集中平臺(tái),使用容易擴(kuò)展的大數(shù)據(jù)方法提供多租戶的分析服務(wù),還會(huì)創(chuàng)造許多新的數(shù)據(jù)挖掘機(jī)遇。數(shù)據(jù)湖的總潛力值隨著可用于分析的數(shù)據(jù)量增加。一個(gè)大數(shù)據(jù)和大數(shù)據(jù)湖的關(guān)鍵原則是你不需要提前建立主數(shù)據(jù)模型,非線性增長是不會(huì)出現(xiàn)的。

企業(yè)數(shù)據(jù)湖或hub的概念最初是由Cloudera和Hortonworks這樣的大數(shù)據(jù)廠商提出的,表面上看,數(shù)據(jù)都是承載在基于可向外擴(kuò)展的HDFS廉價(jià)存儲(chǔ)硬件之上的。但你的數(shù)據(jù)量越大,你越可能需要各種不同種類的存儲(chǔ)。最終,所有的企業(yè)數(shù)據(jù)都可以被認(rèn)為是大數(shù)據(jù),但并不是所有的企業(yè)數(shù)據(jù)都是適合存放在廉價(jià)的HDFS集群之上的。

所以,今天傳統(tǒng)的存儲(chǔ)廠商正在分析大數(shù)據(jù)湖的前景。從存儲(chǔ)市場的角度來看,數(shù)據(jù)湖就像另一個(gè)云計(jì)算一樣。“所有人都需要一個(gè)數(shù)據(jù)湖,你怎么能夠沒有一個(gè)(甚至兩個(gè)、三個(gè))?”但企業(yè)使用存儲(chǔ)有多種選擇,可以采用支持HDFS和Hadoop虛擬化的企業(yè)級存儲(chǔ),這種存儲(chǔ)可以將其它存儲(chǔ)協(xié)議轉(zhuǎn)換成HDFS。也可以采用可擴(kuò)展的軟件定義存儲(chǔ)。

大量,快速,現(xiàn)在

數(shù)據(jù)湖的一部分價(jià)值是把不同種類的數(shù)據(jù)匯聚到一起,另一部分價(jià)值是不需要預(yù)定義的模型就能進(jìn)行數(shù)據(jù)分析?,F(xiàn)在的大數(shù)據(jù)架構(gòu)是可擴(kuò)展的,并且可以為用戶提供越來越多的實(shí)時(shí)分析。在商業(yè)智能(BI)和數(shù)據(jù)倉庫還沒有被淘汰的今天,大數(shù)據(jù)分析和大數(shù)據(jù)湖正在向更多類型的實(shí)時(shí)智能服務(wù)發(fā)展,這些實(shí)時(shí)的智能服務(wù)可以支持實(shí)時(shí)的決策制定。Hadoop和它的生態(tài)系統(tǒng)已經(jīng)度過了它們的理論研究階段,它們已經(jīng)可以為實(shí)際的應(yīng)用需求服務(wù)了。數(shù)據(jù)管理和數(shù)據(jù)分析的應(yīng)用程序已經(jīng)開發(fā)得非常友好,高級的向外擴(kuò)展機(jī)器學(xué)習(xí)技術(shù)也已經(jīng)投入應(yīng)用并嵌入至只需要用鼠標(biāo)就能簡單操作的大數(shù)據(jù)挖掘軟件中。然而,IT仍然需要對數(shù)據(jù)湖里的所有數(shù)據(jù)負(fù)責(zé),所以在這里我們列舉了幾個(gè)企業(yè)數(shù)據(jù)湖的幾個(gè)關(guān)鍵特點(diǎn):

保存一份集中的數(shù)據(jù)索引(或元數(shù)據(jù)),包括數(shù)據(jù)源、版本、精細(xì)度和準(zhǔn)確度。如果在這方面沒有自動(dòng)化的支持,一個(gè)數(shù)據(jù)湖會(huì)很快被沖垮。

對數(shù)據(jù)進(jìn)行安全的授權(quán)、審計(jì)和訪問控制。Hadoop生態(tài)系統(tǒng)在數(shù)據(jù)安全性方面正在快速發(fā)展,因?yàn)檫@是企業(yè)的強(qiáng)制性需求。有許多新產(chǎn)品為大數(shù)據(jù)資產(chǎn)提供一定的安全性,也有許多產(chǎn)品致力于保護(hù)數(shù)據(jù)湖中的大量新數(shù)據(jù)、用戶和不斷增長的資產(chǎn)價(jià)值。

對數(shù)據(jù)湖中的數(shù)據(jù)啟用監(jiān)管功能,并強(qiáng)制啟用保留(retention)和處置(disposition)策略(以及追蹤個(gè)人可識別信息)。最優(yōu)秀的產(chǎn)品(如Dataguise)會(huì)強(qiáng)制使用監(jiān)管和合規(guī)需求,無論數(shù)據(jù)湖中有多少數(shù)據(jù)或是什么類型的數(shù)據(jù)集。

為操作可用性和BC/DR需求確保一定規(guī)模的數(shù)據(jù)保護(hù)。遠(yuǎn)程復(fù)制是必要的嗎?已經(jīng)成為了一個(gè)關(guān)鍵業(yè)務(wù)運(yùn)營平臺(tái)的數(shù)據(jù)湖里的大量實(shí)時(shí)數(shù)據(jù)流對遠(yuǎn)程復(fù)制來說就是洪水猛獸。

使用多種大數(shù)據(jù)分析方法(不僅僅只是Hadoop)和工作流利用數(shù)據(jù)湖提供敏捷分析。在某種程度上,Hadoop和HDFS實(shí)際上是軟件定義存儲(chǔ)產(chǎn)品,它們具有數(shù)據(jù)感知功能,可以提供內(nèi)置的大數(shù)據(jù)分析服務(wù)。但也有其它產(chǎn)品也能提供很好的數(shù)據(jù)湖解決方案,如Spark和一些專有的OLAP或在線分析處理大數(shù)據(jù)分析平臺(tái)(如HP Haven等)。

我們在今天的企業(yè)級存儲(chǔ)產(chǎn)品可以找到上面提到的這些功能,它們說明了為什么許多廠商熱衷于數(shù)據(jù)湖領(lǐng)域,因?yàn)樵坪痛髷?shù)據(jù)會(huì)帶來很大的經(jīng)濟(jì)效益。注重質(zhì)量的企業(yè)級軟件定義存儲(chǔ)會(huì)成為這一領(lǐng)域的領(lǐng)導(dǎo)者。

前景還不清晰的數(shù)據(jù)湖

數(shù)據(jù)湖真的是一個(gè)好的方案嗎?一個(gè)我們最開始可能會(huì)問的問題就是我們是否真的需要把所有的數(shù)據(jù)都匯聚到一起?在一個(gè)地方建立整個(gè)企業(yè)的數(shù)據(jù)聚集點(diǎn)會(huì)帶來巨大的風(fēng)險(xiǎn)。另一個(gè)的問題是數(shù)據(jù)湖真的是一個(gè)節(jié)約成本的解決方案嗎?特別是像Google、Facebook這種具有海量數(shù)據(jù)的公司。

數(shù)據(jù)湖的方案最好是慢慢來實(shí)現(xiàn),而不是大規(guī)模的重新設(shè)計(jì)整個(gè)數(shù)據(jù)中心。數(shù)據(jù)湖的價(jià)值取決于我們的數(shù)據(jù),大規(guī)模的部署向外擴(kuò)展的共享架構(gòu)將使許多組織從數(shù)據(jù)湖(至少是數(shù)據(jù)池)中汲取養(yǎng)分。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號