Apache Hadoop技術(shù)經(jīng)常與大數(shù)據(jù)概念聯(lián)系在一起,它們常常同時(shí)出現(xiàn)在各種行業(yè)會(huì)議和媒體報(bào)道中。而IT人員、咨詢顧問(wèn)和行業(yè)分析師已經(jīng)逐漸達(dá)成共識(shí),Hadoop只是諸多大數(shù)據(jù)技術(shù)中的一種。
Hadoop是一個(gè)開源技術(shù) ,它允許公司存儲(chǔ)和分析分布式計(jì)算環(huán)境的海量數(shù)據(jù)。它的出現(xiàn)肯定對(duì)提升大數(shù)據(jù)的影響力有重要作用。但是行業(yè)觀察者指出,Hadoop現(xiàn)在仍存在一些問(wèn)題。
Forrester機(jī)構(gòu)的企業(yè)架構(gòu)分析師Brian Hopkins說(shuō):“人們開始認(rèn)識(shí)到,大數(shù)據(jù)和Hadoop并不是同義詞。這是因?yàn)樗麄兿螺dHadoop之后,并不意味著就能夠玩兒轉(zhuǎn)大數(shù)據(jù),它僅僅只是一個(gè)工具。”
大數(shù)據(jù)與Hadoop:從幕后走到臺(tái)前
Hadoop最初由互聯(lián)網(wǎng)巨頭谷歌和雅虎共同開發(fā),現(xiàn)在已經(jīng)轉(zhuǎn)移到Apache軟件基金會(huì)。在贏得了大數(shù)據(jù)必備工具的稱號(hào)并開始出現(xiàn)一些成功案例之后,這項(xiàng)技術(shù)及其醒目的logo從2011年起名聲大振。
以eBay為例,這家知名電商平臺(tái)在幾次大會(huì)上都介紹了它的三層數(shù)據(jù)分析平臺(tái)。結(jié)構(gòu)化數(shù)據(jù)位于第一層:一個(gè)用于保存內(nèi)部業(yè)務(wù)項(xiàng)目(如支撐商業(yè)智能儀表板和報(bào)表)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)。第二層由Teradata數(shù)據(jù)管理平臺(tái)組成,用于存儲(chǔ)大容量半結(jié)構(gòu)化信息。而非結(jié)構(gòu)化數(shù)據(jù)(如文本信息)則保存在第三層,它是一個(gè)用于深度研究、分析和實(shí)驗(yàn)的Hadoop集群。
Hopkins在最新播客“大數(shù)據(jù)的超大規(guī)模價(jià)值”上指出:“現(xiàn)在出現(xiàn)了一個(gè)有趣的用例,其中Hadoop被看作是一種快速分布式環(huán)境,它成為分段存儲(chǔ)大量信息的場(chǎng)所。因?yàn)槟氵€無(wú)法確定如何處理它,所以直接將原始文件保存在Hadoop中,然后由Hadoop處理這些文件。”
Hadoop是一個(gè)分布式文件系統(tǒng),它的數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)存儲(chǔ)功能優(yōu)于關(guān)系型數(shù)據(jù)庫(kù)。因此,它非常適合那些需要收集大量數(shù)據(jù)(如無(wú)統(tǒng)一格式的社交媒體網(wǎng)站內(nèi)容、計(jì)算機(jī)生成的傳感器日志和GPS位置信息)的公司使用,而不會(huì)影響他們的傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)。
Wayne Eckerson是TechTarget業(yè)務(wù)應(yīng)用研究主管,他在最新報(bào)告“大數(shù)據(jù)及其對(duì)數(shù)據(jù)倉(cāng)庫(kù)的影響”中指出:“Hadoop是一種載入立即可執(zhí)行的環(huán)境:管理員可以在Hadoop中存儲(chǔ)大量數(shù)據(jù),而不需要將它們轉(zhuǎn)換為特定的結(jié)構(gòu)。然后,用戶就可以使用他們的工具分析這些數(shù)據(jù)。”
SAS 研究所的資深行業(yè)分析師Jill Dyché也指出,Hadoop使用戶能夠查看原始數(shù)據(jù),這在一定程度上改變了數(shù)據(jù)倉(cāng)庫(kù)使用者的工作方式。
她說(shuō):“在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域,我們鼓勵(lì)提出業(yè)務(wù)需求,鼓勵(lì)嚴(yán)格的數(shù)據(jù)質(zhì)量要求,但是不鼓勵(lì)獨(dú)立加載數(shù)據(jù)。但是在大數(shù)據(jù)領(lǐng)域,這一方式得到了顛覆。”
Apache Hadoop困境
Hadoop還有其他優(yōu)點(diǎn)。例如, MapReduce能夠以并行方式處理大數(shù)據(jù)集。根據(jù)行業(yè)分析師Philip Russom的觀點(diǎn),它是一個(gè)通用執(zhí)行引擎,甚至能夠處理手工編碼的代碼。
但是,如果要使用MapReduce,程序員必須能夠操作它的語(yǔ)言。有一些工具并未被廣泛熟悉,如Hive,它使用一種類SQL的語(yǔ)言(HQL)訪問(wèn)數(shù)據(jù)。
Russom指出:“我曾經(jīng)聽人說(shuō):‘Hive很容易學(xué)。’但是,它無(wú)法真正解決與傳統(tǒng)SQL工具的兼容問(wèn)題。”
關(guān)心數(shù)據(jù)分析的公司還需要一些技術(shù)人員參與(如數(shù)據(jù)科學(xué)家),他們應(yīng)該有能力操作Hadoop的專用工具。數(shù)據(jù)科學(xué)家一般具備博士學(xué)位,因此,他們的薪水可能很高,而且也很難招聘到。
此外,這項(xiàng)技術(shù)還有其他一些缺點(diǎn):Eckerson甚至將Apache Hadoop描述為“乳臭未干”,而且在安全性、數(shù)據(jù)質(zhì)量和元數(shù)據(jù)分類等功能上存在不足。Hopkins認(rèn)為它“很難用”,“不成熟”。Russom認(rèn)為這項(xiàng)技術(shù)肯定會(huì)有不錯(cuò)的前景,但是成為主流應(yīng)用還需要幾年時(shí)間。
根據(jù)eBay高級(jí)技術(shù)成員和架構(gòu)師Tom Fastner的觀點(diǎn),即使在eBay,其核心競(jìng)爭(zhēng)力也不在于Hadoop,而是構(gòu)成數(shù)據(jù)分析平臺(tái)的第二層技術(shù)。eBay將它基于Teradata的數(shù)據(jù)庫(kù)系統(tǒng)稱為Singularity,并且表示它將提供30 PB空間,而并發(fā)性低于EDW。Fastner指出,Singularity的最大應(yīng)用是用戶行為分析,這個(gè)流程通常可以產(chǎn)生寶貴的商業(yè)洞察力。
而且,F(xiàn)orrester的Hopkins指出,有其他技術(shù)可以幫助企業(yè)實(shí)現(xiàn)優(yōu)于Hadoop的大數(shù)據(jù)方案。所有這些都取決于業(yè)務(wù)需求。他說(shuō):“我們分析了大數(shù)據(jù)技術(shù)的兩個(gè)不同方面。其一是結(jié)構(gòu),另一個(gè)是延遲。”
每一個(gè)方面由低到高排列,大數(shù)據(jù)工具和技術(shù)都屬于這些范疇。例如,內(nèi)存技術(shù)(如SAP HANA)可以在高度結(jié)構(gòu)化數(shù)據(jù)上實(shí)現(xiàn)低延遲的查詢結(jié)果,而大規(guī)模并行處理(MPP)技術(shù)(包括Teradata和IBM Netezza)都可以處理高延遲的高度結(jié)構(gòu)化數(shù)據(jù)。
Hopkins說(shuō),雖然Hadoop能處理多種數(shù)據(jù)類型,但由于批處理的方式,這使得它無(wú)法搭建實(shí)時(shí)環(huán)境。
專家指出,Hadoop的光環(huán)可能會(huì)慢慢消退,但現(xiàn)在它仍然是倍受關(guān)注的技術(shù),它的主要支持者仍然是互聯(lián)網(wǎng)巨頭。