隨著Hadoop的數(shù)據(jù)湖獲得更多的定義和部署,現(xiàn)在開(kāi)始看起來(lái)將與現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)共存。而混合型數(shù)據(jù)架構(gòu)這樣一種觀點(diǎn)出現(xiàn)在加利福尼亞州圣迭戈召開(kāi)的2016企業(yè)數(shù)據(jù)世界會(huì)議上。
“這不是一個(gè)有或沒(méi)有的事情,而是一個(gè)共同存在的事情。”紐約咨詢公司CasertaConcepts公司總裁兼首席執(zhí)行官喬治·卡塞塔在2016年EDW大會(huì)上表示,“企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)不會(huì)消失。即使當(dāng)我們正在關(guān)注Hadoop和Spark和其他所有閃亮的新事物,它仍然存在。”
但是數(shù)據(jù)湖在大數(shù)據(jù)科學(xué)和分析應(yīng)用中找到了用武之地。喬治·卡塞塔表示,基于Hadoop的數(shù)據(jù)湖通常首先要處理大量和快速到達(dá)的大量非結(jié)構(gòu)化數(shù)據(jù)??ㄈ推渌麑<冶硎?,數(shù)據(jù)湖是大數(shù)據(jù)的趨勢(shì),將為數(shù)據(jù)專業(yè)人員熟悉實(shí)踐的重要組成部分帶來(lái)改變。
“我們采數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)建了第一個(gè)數(shù)據(jù)模型,但這已經(jīng)發(fā)生了變化,“卡塞塔說(shuō)。隨著數(shù)據(jù)湖的采用,這些模型都已落后。“我們不這樣做,馬上就落后了。”他說(shuō)。
分析和應(yīng)用
其中的一個(gè)原因是數(shù)據(jù)湖與實(shí)時(shí)數(shù)據(jù)流關(guān)聯(lián)。隨著分析使得業(yè)務(wù)應(yīng)用更加緊密,并成為了實(shí)時(shí)決策的一部分,數(shù)據(jù)需要盡快地創(chuàng)建和訪問(wèn)??ㄈf(shuō),這也使得它與數(shù)據(jù)倉(cāng)庫(kù)的工作有很大的不同,這將繼續(xù)成為必要業(yè)務(wù)報(bào)告的基礎(chǔ)。
這個(gè)觀點(diǎn)是由零售數(shù)據(jù)安全和電子商務(wù)服務(wù)提供商FirstData公司支付處理數(shù)據(jù)管理總監(jiān)湯姆·普萊斯所分享的,他看到數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)不同的應(yīng)用,以及對(duì)數(shù)據(jù)結(jié)構(gòu)的需要。
“數(shù)據(jù)倉(cāng)庫(kù)是專為緩慢變化的數(shù)據(jù)設(shè)計(jì)的,每天、每周和每月的匯總,以及已知的、結(jié)構(gòu)化的數(shù)據(jù)”。普萊斯說(shuō),“而另一方面,數(shù)據(jù)湖是為快速變化的數(shù)據(jù)設(shè)計(jì)的,而數(shù)據(jù)湖可以告訴你一分鐘前或五分鐘前發(fā)生了什么事。”
像卡塞塔一樣,普萊斯看到了從數(shù)據(jù)湖進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的非結(jié)構(gòu)化數(shù)據(jù)的選擇性匯總的區(qū)別。
數(shù)據(jù)水庫(kù)
作為數(shù)據(jù)湖泊的發(fā)展,作為處理簡(jiǎn)單和未分化的數(shù)據(jù)的應(yīng)用可能會(huì)接近尾聲??ㄈ推杖R斯都看到在數(shù)據(jù)湖有著不同程度的數(shù)據(jù)治理應(yīng)用于不同層次的數(shù)據(jù)。
這些部門(mén)主要是為用戶提供先進(jìn)和技能和分析。總部在亞特蘭大的FirstData公司數(shù)據(jù)的消費(fèi)者包括業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家,但也有一些產(chǎn)品創(chuàng)新和產(chǎn)品優(yōu)化專家。其應(yīng)用范圍從商業(yè)報(bào)告到預(yù)防欺詐的案例。
普萊斯說(shuō),他其實(shí)更喜歡將長(zhǎng)期的數(shù)據(jù)湖稱為數(shù)據(jù)水庫(kù)這樣的術(shù)語(yǔ)。在他看來(lái),數(shù)據(jù)水庫(kù)可以傳達(dá)攝入的數(shù)據(jù)將被處理的想法。
“數(shù)據(jù)湖本身只是一個(gè)用戶不理解的原始數(shù)據(jù)的集合,它可能無(wú)法管理,無(wú)法驗(yàn)證用戶。”普萊斯說(shuō),“有了數(shù)據(jù)水庫(kù),這些數(shù)據(jù)能夠得到很好地治理,充分理解以及良好的管理。而且,你其實(shí)可以采用數(shù)據(jù)做更有價(jià)值的事情。”
長(zhǎng)期沙箱
數(shù)據(jù)湖作為一個(gè)術(shù)語(yǔ),遠(yuǎn)未受到普遍歡迎??偛吭诿髂岚⒉ɡ挂患冶kU(xiǎn)和投資管理企業(yè)Thrivent金融公司的數(shù)據(jù)和商業(yè)智能交付高級(jí)架構(gòu)師盧米尼察·沃爾默表示,并不喜歡這個(gè)術(shù)語(yǔ)。她傾向于共同發(fā)展的長(zhǎng)期沙箱,因?yàn)楹芏鄶?shù)據(jù)湖的使用是實(shí)驗(yàn)性的。
不過(guò),在數(shù)據(jù)倉(cāng)庫(kù)的前景會(huì)議上,她告訴與會(huì)者關(guān)注他們目前的數(shù)據(jù)倉(cāng)庫(kù),以及他們的組織將如何使用未來(lái)的工具,包括NoSQL數(shù)據(jù)庫(kù)和預(yù)測(cè)性分析軟件的前景。她說(shuō),Hadoop已經(jīng)在許多組織中占據(jù)了數(shù)據(jù)結(jié)構(gòu)中的位置。
與其他人一樣,沃爾默說(shuō),數(shù)據(jù)分析用戶的一個(gè)新的頻譜正在形成。當(dāng)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)是唯一的游戲時(shí),事情是不同的,她說(shuō),這將影響到向前發(fā)展的數(shù)據(jù)管理團(tuán)隊(duì)的方式。
“必須要有一些人支持目前的系統(tǒng)和一些人做一些研究。”沃爾默說(shuō),“這可能使我們做事的方式發(fā)生變化。”