過(guò)去幾年,大數(shù)據(jù)在全球商業(yè)環(huán)境中的重要性已得到堅(jiān)定的確認(rèn)。2017年看起來(lái)是 Apache Hadoo pimplementation (在開源開發(fā)和更多的商業(yè)選擇方面)在企業(yè)層面上,由于企業(yè)信息管理(EIM)仍然需要更多改進(jìn)的大數(shù)據(jù)解決方案。
數(shù)據(jù)倉(cāng)庫(kù)現(xiàn)代化、Hadoop項(xiàng)目級(jí)的采用和數(shù)據(jù)湖泊的使用的早期(和持續(xù))趨勢(shì)可能會(huì)繼續(xù)以更快的速度向前發(fā)展。在版本1和2之間,Hadoop已經(jīng)從一個(gè)主要面向批處理的處理器發(fā)展為一個(gè)強(qiáng)大的、實(shí)時(shí)的數(shù)據(jù)處理器,它可以處理企業(yè)級(jí)的大數(shù)據(jù)應(yīng)用程序以及更傳統(tǒng)的遺留數(shù)據(jù)集。
今天,Hadoop可以提供一個(gè)能容納大型復(fù)雜的業(yè)務(wù)應(yīng)用程序數(shù)據(jù)處理基礎(chǔ)設(shè)施。以大數(shù)據(jù)為處理模型的核心,運(yùn)行在Hadoop上的典型業(yè)務(wù)系統(tǒng)包括三個(gè)不同的層:基礎(chǔ)結(jié)構(gòu)層、數(shù)據(jù)層和分析層。因此,諸如MapR或Cloudera這樣的商業(yè)平臺(tái)供應(yīng)商可能會(huì)發(fā)現(xiàn)很容易將Hadoop架構(gòu)定位為滿足大多數(shù)企業(yè)需求的全方位實(shí)用平臺(tái)。
現(xiàn)代企業(yè)中的數(shù)據(jù)爆炸
“福布斯”的一篇標(biāo)題為Hadoop為企業(yè)黃金時(shí)段做好準(zhǔn)備的5個(gè)原因的博文,解釋了數(shù)據(jù)爆炸如何迫使組織通過(guò)第三方來(lái)擴(kuò)展他們的業(yè)務(wù)應(yīng)用程序,而不需要進(jìn)行大量投資。在托管服務(wù)場(chǎng)景中,企業(yè)不必?fù)?dān)心基礎(chǔ)設(shè)施、內(nèi)部數(shù)據(jù)中心或?qū)<胰肆?-從而將全部時(shí)間和精力用于加快交付速度。
最新的“錦上添花”是Hadoop的開源解決方案的穩(wěn)定供應(yīng),它將這個(gè)獨(dú)特的數(shù)據(jù)平臺(tái)的功能和能力擴(kuò)展了幾倍。對(duì)于供應(yīng)鏈系統(tǒng),這個(gè)故事有點(diǎn)不同。Hadoop是什么?它對(duì)供應(yīng)鏈管理意味著什么?一文認(rèn)為,作為供應(yīng)鏈的基礎(chǔ),風(fēng)險(xiǎn)評(píng)估應(yīng)用程序是大量的“非結(jié)構(gòu)化數(shù)據(jù)”,“Hadoop與MapReduce和HDFS為供應(yīng)鏈項(xiàng)目中的風(fēng)險(xiǎn)評(píng)估和緩解提供了一個(gè)強(qiáng)大的組合。
面向企業(yè)信息管理的Hadoop
商業(yè)數(shù)據(jù)集已經(jīng)超越了數(shù)據(jù)庫(kù),擴(kuò)展到了網(wǎng)絡(luò)軌跡、GPS數(shù)據(jù)、傳感器數(shù)據(jù)和社會(huì)數(shù)據(jù)。新的“數(shù)據(jù)環(huán)境”需要先進(jìn)的技術(shù)和工具來(lái)利用大量的多結(jié)構(gòu)數(shù)據(jù),如果使用正確的工具處理,就能產(chǎn)生有利可圖的智能和視覺(jué)效果。文章還強(qiáng)調(diào),龐大的數(shù)據(jù)量使我們有必要找到節(jié)省成本的技術(shù)解決方案來(lái)存儲(chǔ)和處理這些數(shù)據(jù)。Hadoop是支持大數(shù)據(jù)的技術(shù)的極好解決方案,可以為業(yè)務(wù)用戶提供真正的好處。
Seed分析小組探索EIM面臨的大數(shù)據(jù)挑戰(zhàn),在那里,大數(shù)據(jù)分析被證明是在激烈競(jìng)爭(zhēng)中取得成功的核心區(qū)別因素。像LinkedIn這樣的公司已經(jīng)利用“大數(shù)據(jù)分析”領(lǐng)先于競(jìng)爭(zhēng)。有趣的觀察是,許多領(lǐng)先的軟件供應(yīng)商已經(jīng)將Hadoop作為他們首選的大數(shù)據(jù)應(yīng)用程序平臺(tái)。
在全球范圍內(nèi),鼓勵(lì)企業(yè)開始規(guī)劃Hadoop上的大數(shù)據(jù)和大數(shù)據(jù)分析,如果它們還沒(méi)有這樣做的話。在這里,企業(yè)數(shù)據(jù)框架已經(jīng)被明確地定義為四個(gè)連續(xù)的步驟:數(shù)據(jù)采集、數(shù)據(jù)清理、數(shù)據(jù)處理和智能收集。一篇題為“大數(shù)據(jù)分析時(shí)代企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的角色演變”的行業(yè)白皮書試圖解釋大數(shù)據(jù)技術(shù)需要適應(yīng)傳統(tǒng)的進(jìn)入企業(yè)信息管理模式。
“數(shù)據(jù)庫(kù)趨勢(shì)與應(yīng)用”雜志報(bào)道了2017年數(shù)據(jù)和信息管理中的趨勢(shì)設(shè)定產(chǎn)品,最近,云已經(jīng)成為組織間一個(gè)頂級(jí)的數(shù)據(jù)存儲(chǔ)平臺(tái)。參加本次2016年DBTA調(diào)查的大多數(shù)組織有超過(guò)100TB數(shù)據(jù)。
Hadoop上的大數(shù)據(jù)
Apache的Hadoop最流行的開源版本需要高級(jí)的技術(shù)技能,而訂閱Hadoop -as-a- service可以減輕客戶機(jī)的維護(hù)負(fù)擔(dān)。HP與HortonWorks合作,在Hadoop和它自己的大數(shù)據(jù)技術(shù)之間建立了一個(gè)堅(jiān)實(shí)的技術(shù)聯(lián)盟。
在這一廣譜的另一端,IBM提供了在云中的基于前提和托管的Hadoop版本。到目前為止,許多想要管理多結(jié)構(gòu)的大數(shù)據(jù)的組織可能會(huì)依賴Hadoop來(lái)交付理想的結(jié)果。真正的挑戰(zhàn)在于為Hadoop數(shù)據(jù)庫(kù)和它們的內(nèi)部應(yīng)用程序選擇合適的分析解決方案。
數(shù)據(jù)湖:獨(dú)特的Hadoop倉(cāng)庫(kù)
數(shù)據(jù)湖有能力以不同的格式攝取原始數(shù)據(jù),并且可以很容易地?cái)U(kuò)展到pb級(jí)。在數(shù)據(jù)湖中存儲(chǔ)原始數(shù)據(jù)的最大好處是,數(shù)據(jù)可以反復(fù)地重新定義業(yè)務(wù)需求和需求。這允許以最靈活的格式保存數(shù)據(jù)以適應(yīng)任何新的應(yīng)用程序。
在Hadoop上構(gòu)建大數(shù)據(jù)用例
構(gòu)建Hadoop基礎(chǔ)設(shè)施的一個(gè)有效方法是通過(guò)大數(shù)據(jù)用例。為了建立最佳用例,組織首先需要人力——一組能干的數(shù)據(jù)架構(gòu)師和能夠根據(jù)現(xiàn)有數(shù)據(jù)可視化和構(gòu)建解決方案的數(shù)據(jù)科學(xué)家。與這些專家一起,組織還需要數(shù)據(jù)分析師和商業(yè)情報(bào)專家從數(shù)據(jù)中提取洞見(jiàn)。在理想的情況下,這是一個(gè)多努力的練習(xí),需要廣泛的技能和經(jīng)驗(yàn)。
2017年的數(shù)據(jù)管理趨勢(shì)表明,Hadoop存儲(chǔ)設(shè)備的巨大成本優(yōu)勢(shì)使其成為現(xiàn)代企業(yè)數(shù)據(jù)存儲(chǔ)的首選。DataLake保存原始格式數(shù)據(jù)的強(qiáng)大功能使其能夠在不同的應(yīng)用程序中重復(fù)使用該數(shù)據(jù)。
Gartner發(fā)布了一張有用的信息圖表,以幫助理解Hadoop為什么能夠提供企業(yè)信息管理系統(tǒng)提出的大部分?jǐn)?shù)據(jù)需求,這就需要適當(dāng)?shù)卣项I(lǐng)域、路線圖、流程、工作流程,并充分關(guān)注數(shù)據(jù)治理,從而推動(dòng)所希望的結(jié)果。
這張圖還試圖描述首席數(shù)據(jù)官的作用,他最好能領(lǐng)導(dǎo)大型企業(yè)信息網(wǎng)絡(luò)中的數(shù)據(jù)治理和數(shù)據(jù)管理工作。
展望未來(lái)
隨著企業(yè)數(shù)據(jù)量在戰(zhàn)略上的重要性不斷提高,傳統(tǒng)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)將繼續(xù)演化為更大更復(fù)雜的數(shù)據(jù)架構(gòu)。從高層管理人員到車間經(jīng)理,每一個(gè)商業(yè)用戶都可能開始利用大數(shù)據(jù)應(yīng)用程序來(lái)審查、分析和報(bào)告日常業(yè)務(wù)操作中的關(guān)鍵任務(wù)信息。
此外,如機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等先進(jìn)技術(shù)包含在企業(yè)大數(shù)據(jù)應(yīng)用程序中,用于預(yù)測(cè)建模、針對(duì)客戶、產(chǎn)品定價(jià)或建議,像Hadoop這樣的開源平臺(tái)可能是成本高效的企業(yè)信息管理解決方案的完美答案。這些趨勢(shì)將持續(xù)到2017年(及以后),并將通過(guò)Hadoop的sql化以及物聯(lián)網(wǎng)(物聯(lián)網(wǎng))的增長(zhǎng)而得到加強(qiáng)。