《企業(yè)網(wǎng)D1Net》6月13日訊
在大數(shù)據(jù)時代下,數(shù)據(jù)庫的應用日漸廣泛,很多用戶在應用數(shù)據(jù)庫過程中,喜歡把所有東西都放在Hadoop數(shù)據(jù)庫,然而,那些推薦將所的有東西都放在Hadoop數(shù)據(jù)庫的人顯然忘記了數(shù)據(jù)庫發(fā)展史上曾經(jīng)發(fā)生的一些慘痛教訓。
不要把所有東西都放在同一個數(shù)據(jù)庫
雖然有句諺語叫做“大象永遠不會忘記”,但是我還是對這一諺語想要表達的意思心存懷疑。我就知道一種特殊的大象——它們的名字叫做Hadoop,這些大象似乎并不記得它們在向企業(yè)級數(shù)據(jù)倉庫(簡稱為EDW)市場進軍過程中的一些經(jīng)歷。在Hadoop這個舞臺上,一些產(chǎn)品似乎對長期折磨該市場的某些缺陷一直沒有改進,并且在不斷地犯著相同的錯誤。
我對于Hadoop能夠、并且應該成為企業(yè)所有分析數(shù)據(jù)的中心樞紐這一觀點持懷疑態(tài)度。
在大數(shù)據(jù)時代初期,EDW領(lǐng)域曾經(jīng)提出了“把所有的雞蛋都放在一個籃子里”的理念。盡管為所有分析主題域創(chuàng)建單一版本的真實數(shù)據(jù)倉庫在理論上具有重大意義,但是幾乎沒有客戶愿意花費資金、時間和資源將不同的分析數(shù)據(jù)庫整合至一個單一平臺之上。在EDW市場,許多企業(yè)將核心的記錄系統(tǒng)數(shù)據(jù)進行了整合,但是我們?nèi)匀荒軌螂S處見到企業(yè)專用的戰(zhàn)術(shù)數(shù)據(jù)倉庫、數(shù)據(jù)集市、操作數(shù)據(jù)存儲、聯(lián)機分析處理(OLAP)數(shù)據(jù)庫,以及其他針對特定區(qū)域、業(yè)務領(lǐng)域、應用和用戶的分析數(shù)據(jù)庫。
在Hadoop時代,單一的“企業(yè)數(shù)據(jù)樞紐”這一理念依然會存在反對的聲音。事實上,對于Loraine Lawson近期撰寫的關(guān)于等效構(gòu)想(即以Hadoop為中心的“數(shù)據(jù)湖”)的文章,就存在質(zhì)疑的聲音。Lawson將這一理念比喻成“大冰糖山”,她認為在以數(shù)據(jù)為中心的架構(gòu)中,分布式計算將會消除數(shù)據(jù)孤島。Lawson以Edd Dumbill在關(guān)于“數(shù)據(jù)湖”討論中所說的話為論據(jù)稱:“Dumbill指出谷歌和Facebook的開發(fā)者‘完全生活在這一夢想當中’,這證明其不僅僅是一名開發(fā)者的夢想。”
我無從得知Dumbill做出這一論述的邏輯基礎(chǔ)。這些特定的開發(fā)者們沒有承認這是一名開發(fā)者的夢想。這些來自谷歌和Facebook的特定開發(fā)者們是Hadoop的早期開發(fā)者和用戶,這兩家公司已經(jīng)在該平臺上創(chuàng)建了他們各自的Web服務。這也并不能證明這一夢想在硅谷以外的地方存在。
實際上,大數(shù)據(jù)時代中的用戶想法已經(jīng)開始向“混合部署”這一模式轉(zhuǎn)型。這種“混合”部署模式將EDW、Hadoop、NoSQL、內(nèi)存式以及其他數(shù)據(jù)平臺整合到了一個帶有云功能的異構(gòu)基礎(chǔ)設施當中。
在混合架構(gòu)當中,“數(shù)據(jù)湖”夢想似乎針對的是一種大數(shù)據(jù)部署角色:即帶有試驗性質(zhì)的“沙盒”。這種沙盒是數(shù)據(jù)整合與統(tǒng)計建模中心,其針對的用戶是那些需要從海量的多結(jié)構(gòu)數(shù)據(jù)中篩選數(shù)據(jù)的數(shù)據(jù)科學家團隊。正如我之前所說的那樣,全球的數(shù)據(jù)科學家們正在紛紛將Hadoop作為他們的數(shù)據(jù)“沙盒”。
Hadoop在大數(shù)據(jù)分析中正在成為關(guān)鍵性的應用部署與執(zhí)行平臺。對于“數(shù)據(jù)湖”的前景展望,我沒有什么可挑剔的。數(shù)據(jù)科學家在大數(shù)據(jù)時代是關(guān)鍵的應用開發(fā)者。Hadoop正在快速地成為多用途分布式任務執(zhí)行層,其有能力執(zhí)行大量的用其他語言編寫的任務。
D1Net評論:
隨著大數(shù)據(jù)時代的深入發(fā)展,Hadoop的影響力和應用范疇正在持續(xù)擴大,然而,這并不是說Hadoop將成為唯一的平臺。實際上,包括Hadoop、大規(guī)模并行處理EDW、NoSQL、內(nèi)存式和流式在內(nèi)的所有大數(shù)據(jù)平臺都是應用開發(fā)與執(zhí)行平臺。任何認為一種平臺將一統(tǒng)“以分析為核心的應用開發(fā)”天下的想法都是不正確的,應當轉(zhuǎn)變這種觀念。