總結(jié)Hadoop所面臨的最大挑戰(zhàn)

責(zé)任編輯:editor005

作者:Sergey Tryuber

2015-08-28 14:37:50

摘自:TechTarget中國(guó)

很多企業(yè)正在將Hadoop應(yīng)用到他們的IT基礎(chǔ)設(shè)施中去。大數(shù)據(jù)工程師不好招  一個(gè)好的工程人員是任何IT企業(yè)的重要組成部分,而這在大數(shù)據(jù)中尤為關(guān)鍵。與其他大數(shù)據(jù)框架和技術(shù)結(jié)合,它可以讓面向數(shù)據(jù)業(yè)務(wù)的功能提升到一個(gè)全新的性能水平。

很多企業(yè)正在將Hadoop應(yīng)用到他們的IT基礎(chǔ)設(shè)施中去。對(duì)于擁有強(qiáng)大工程團(tuán)隊(duì),經(jīng)驗(yàn)豐富的大數(shù)據(jù)老手們來(lái)說(shuō),要設(shè)計(jì)目標(biāo)系統(tǒng),選擇技術(shù)堆棧,以及啟動(dòng)項(xiàng)目通常并不是什么大問(wèn)題。即便是那些經(jīng)驗(yàn)老道的人有時(shí)仍會(huì)面對(duì)諸多復(fù)雜紛繁的障礙,而Hadoop初學(xué)者會(huì)在起始階段就面臨無(wú)數(shù)的挑戰(zhàn)。下面我們列出了一些最為常見(jiàn)的Hadoop問(wèn)題。

供應(yīng)商多元化。該選誰(shuí)呢?

最為常見(jiàn)的反應(yīng)是從Apache網(wǎng)站上使用原始的Hadoop二進(jìn)制文件,但是這會(huì)導(dǎo)致這樣的問(wèn)題,即為什么只有少數(shù)公司在生產(chǎn)環(huán)境中投入使用。對(duì)于不這樣做有著很多的爭(zhēng)議。但當(dāng)來(lái)自于Hortonworks,Cloudera,MapR的很多Hadoop發(fā)行版可免費(fèi)下載時(shí),恐慌接踵而至,而又隨著大型商業(yè)IBMInfoSphere BigInsights以及OracleBig Data Appliance的參與趨于終止。Oracle甚至包含了硬件!當(dāng)一些行業(yè)引入了供應(yīng)商后事情變得更為復(fù)雜。選擇正確的版本并非易事,甚至對(duì)于經(jīng)驗(yàn)老道的人亦是如此,因?yàn)樗鼈兠恳粋€(gè)都要嵌入不同的Hadoop組件(如CDH中的ClouderaImpala),配置管理器(Ambari,Cloudera Manager等等)。

SQL on Hadoop非常流行,但并不明確…

Hadoop存儲(chǔ)了大量數(shù)據(jù)。除了根據(jù)預(yù)定義管道進(jìn)行處理外,企業(yè)還想讓數(shù)據(jù)科學(xué)和業(yè)務(wù)分析人員通過(guò)交互訪問(wèn)來(lái)獲取更多價(jià)值。Internet上的口碑營(yíng)銷迫使他們這樣去做,雖不是很明確,但暗含的意思就是企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的競(jìng)爭(zhēng)。這里的情況類似于供應(yīng)商多元化,由于有相當(dāng)多的框架可以提供“Hadoop上的SQL”,如何選擇它們中最好的并非挑戰(zhàn)所在。要明白它們目前都還無(wú)法完全取代傳統(tǒng)OLAP數(shù)據(jù)庫(kù)。與此同時(shí),它們有很多策略優(yōu)勢(shì),但在性能,SQL兼容性以及對(duì)簡(jiǎn)化的支持方面都有可商榷的短板。這是另外一個(gè)世界,你要么遵守它的規(guī)則,要么就不要把它看作是傳統(tǒng)方法的替代品。

大數(shù)據(jù)工程師不好招

一個(gè)好的工程人員是任何IT企業(yè)的重要組成部分,而這在大數(shù)據(jù)中尤為關(guān)鍵。在大多數(shù)案例中依賴好的Java/Python/C++工程師來(lái)設(shè)計(jì)/實(shí)現(xiàn)高質(zhì)量的數(shù)據(jù)處理流程便意味著花費(fèi)大量金錢。經(jīng)過(guò)兩年的發(fā)展,你所擁有的可能會(huì)是不穩(wěn)定,不被支持的以及過(guò)度工程化的混亂腳本和框架。如果關(guān)鍵開發(fā)人員離去,那么這種情況就會(huì)變得糟糕。與任何其他編程領(lǐng)域一樣,經(jīng)驗(yàn)豐富的大數(shù)據(jù)開發(fā)人員會(huì)花費(fèi)大量時(shí)間來(lái)思考如何讓事情變得簡(jiǎn)單以及系統(tǒng)在未來(lái)將會(huì)如何加以評(píng)估。由于經(jīng)驗(yàn)在大數(shù)據(jù)技術(shù)棧中是一個(gè)關(guān)鍵因素。因此尋找經(jīng)驗(yàn)豐富的開發(fā)人員才是真正挑戰(zhàn)所在。

安全的Hadoop環(huán)境讓人頭痛。

越來(lái)越多的公司在Hadoop上存儲(chǔ)敏感數(shù)據(jù)。盡管這些數(shù)據(jù)不是信用卡號(hào),但是這些數(shù)據(jù)至少各自有著安全規(guī)范方面的要求。因此這一挑戰(zhàn)純粹是技術(shù)層面的,但往往會(huì)引發(fā)問(wèn)題。如果僅僅是使用HDFS和MapReduce,那么事情就會(huì)很簡(jiǎn)單。動(dòng)態(tài)數(shù)據(jù)和靜態(tài)加密數(shù)據(jù)都是可用的,文件系統(tǒng)權(quán)限足以用來(lái)進(jìn)行授權(quán),Kerberos則用來(lái)進(jìn)行身份驗(yàn)證。只需用顯式邊緣節(jié)點(diǎn)添加圍墻和主機(jī)級(jí)的安全性并保持靜默即可。但是一旦你決定使用其他框架,尤其是如果它們?cè)谧约旱南到y(tǒng)用戶下執(zhí)行請(qǐng)求,那么你就會(huì)陷入麻煩。首先,并不是所有框架都支持Kerberized環(huán)境。其次,它們可能沒(méi)有自身的授權(quán)功能。第三,經(jīng)常性缺乏加密運(yùn)動(dòng)數(shù)據(jù)。最后,如果請(qǐng)求是在集群之外進(jìn)行提交會(huì)引起很多問(wèn)題。

結(jié)論

以上內(nèi)容遠(yuǎn)未達(dá)到完整的程度,而且有人可能會(huì)被嚇跑而決定完全不使用Hadoop或是推遲對(duì)其的使用。這是不明智的。經(jīng)驗(yàn)老道的人使用Hadoop可以為企業(yè)帶來(lái)很多好處。與其他大數(shù)據(jù)框架和技術(shù)結(jié)合,它可以讓面向數(shù)據(jù)業(yè)務(wù)的功能提升到一個(gè)全新的性能水平。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)