六個(gè)超大規(guī)模Hadoop部署案例

責(zé)任編輯:一三

2014-04-01 08:50:25

摘自:中關(guān)村在線

這次我們介紹eBay、Orbitz Worldwide、Facebook、Infchimps等大型網(wǎng)絡(luò)公司實(shí)際部署Hadoop的案例

Hadoop的優(yōu)點(diǎn)很多,但也并非十全十美。這次我們介紹eBay、Orbitz Worldwide、Facebook、Infchimps等大型網(wǎng)絡(luò)公司實(shí)際部署Hadoop的案例,希望從這些真實(shí)的案例當(dāng)中,能給大家一點(diǎn)啟示。

【編者按】近年來(lái),大數(shù)據(jù)分析很受歡迎,現(xiàn)有的數(shù)據(jù)挖掘和分析技術(shù)往往不能完美勝任大數(shù)據(jù)的處理任務(wù),雖然搭建Hadoop集群,不能完美解決所有問(wèn)題,但是Hadoop集群最大的優(yōu)點(diǎn)就是它非常適合處理分布廣泛且非結(jié)構(gòu)化的大數(shù)據(jù)。中關(guān)村在線的這篇文章從六個(gè)超大規(guī)模Hadoop部署的實(shí)際案例出發(fā),為我們?cè)敿?xì)介紹了企業(yè)或組織在實(shí)際部署Hadoop過(guò)程中是如何做的。

以下為原文:

雖然Hadoop是眼下熱鬧非凡的大數(shù)據(jù)領(lǐng)域最熱話題,但它肯定不是可以解決數(shù)據(jù)中心和數(shù)據(jù)管理方面所有難題的靈丹妙藥??紤]到這一點(diǎn),我們暫且不想猜測(cè)這個(gè)平臺(tái)未來(lái)會(huì)如何,也不想猜測(cè)各種數(shù)據(jù)密集型解決方案的開(kāi)源技術(shù)未來(lái)會(huì)如何,而是關(guān)注讓Hadoop越來(lái)越火的實(shí)際應(yīng)用案例。

案例之一:eBay的Hadoop環(huán)境

eBay分析平臺(tái)開(kāi)發(fā)小組的Anil Madan討論了這家拍賣行業(yè)的巨擘在如何充分發(fā)揮Hadoop平臺(tái)的強(qiáng)大功能,充分利用每天潮水般涌入的8TB至10TB數(shù)據(jù)。

雖然eBay只是幾年前才開(kāi)始向生產(chǎn)型Hadoop環(huán)境轉(zhuǎn)移,但它卻是早在2007年就率先開(kāi)始試用Hadoop的大規(guī)?;ヂ?lián)網(wǎng)公司之一,當(dāng)時(shí)它使用一個(gè)小型集群來(lái)處理機(jī)器學(xué)習(xí)和搜索相關(guān)性方面的問(wèn)題。這些涉及的是少量數(shù)據(jù);Madan表示,但是就這個(gè)試驗(yàn)項(xiàng)目而言很有用;不過(guò)隨著數(shù)據(jù)日益增加、用戶活動(dòng)日益頻繁,eBay想充分利用幾個(gè)部門(mén)和整個(gè)用戶群當(dāng)中的數(shù)據(jù)。

eBay的第一個(gè)大型Hadoop集群是500個(gè)節(jié)點(diǎn)組成的Athena,這個(gè)專門(mén)建造的生產(chǎn)型平臺(tái)可以滿足eBay內(nèi)部幾個(gè)部門(mén)的要求。該集群只用了不到三個(gè)月就建成了,開(kāi)始高速處理預(yù)測(cè)模型、解決實(shí)時(shí)問(wèn)題;后來(lái)不斷擴(kuò)大規(guī)模,以滿足其他要求。

Madan表示,該集群現(xiàn)由eBay的許多小組使用,既用于日常生產(chǎn)作業(yè),又用于一次性作業(yè)。小組使用Hadoop的公平調(diào)度器(Fair Scheduler)來(lái)管理資源分配、為各小組定義作業(yè)池、賦予權(quán)重、限制每個(gè)用戶和小組的并行作業(yè),并且設(shè)定搶占超時(shí)和延遲調(diào)度。

雖然Madan經(jīng)常在臺(tái)上暢談Hadoop具有的實(shí)際價(jià)值,他也經(jīng)常提到工作小組在擴(kuò)建eBay基礎(chǔ)設(shè)施時(shí)面臨、繼續(xù)竭力克服的幾個(gè)主要挑戰(zhàn)。下面列出了與Hadoop有關(guān)的一系列挑戰(zhàn):

可擴(kuò)展性

就現(xiàn)有版本而言,主服務(wù)器NameNde存在可擴(kuò)展性問(wèn)題。由于集群的文件系統(tǒng)不斷擴(kuò)大,它占用的內(nèi)存空間也隨之?dāng)U大,因?yàn)樗颜麄€(gè)元數(shù)據(jù)保存在內(nèi)存中。1PB的存儲(chǔ)容量大概需要 1GB的內(nèi)存容量。幾種切實(shí)可行的解決方案是分層命名空間分區(qū),或者結(jié)合使用Zkeeper和HBase,實(shí)現(xiàn)元數(shù)據(jù)管理。

可用性

NameNde的可用性對(duì)生產(chǎn)型工作負(fù)載來(lái)說(shuō)至關(guān)重要。開(kāi)源社區(qū)正致力于冷備份(cld standby)、暖備份(warm standby)和熱備份(ht standby)這幾個(gè)選項(xiàng),比如檢查點(diǎn)(Checkpint)節(jié)點(diǎn)和備份(Backup)節(jié)點(diǎn);從輔助NameNde切換avatar的Avatar節(jié)點(diǎn);以及日志元數(shù)據(jù)復(fù)制技術(shù)。我們正在評(píng)估這些方案,以建立我們的生產(chǎn)型集群。

數(shù)據(jù)發(fā)現(xiàn)

在天生不支持?jǐn)?shù)據(jù)結(jié)構(gòu)的系統(tǒng)上支持?jǐn)?shù)據(jù)監(jiān)管、發(fā)現(xiàn)和模式管理。一個(gè)新項(xiàng)目準(zhǔn)備把Hive的元數(shù)據(jù)存儲(chǔ)區(qū)和wl合并成一個(gè)新系統(tǒng),名為Hwl。我們旨在努力把該系統(tǒng)連接到我們的分析平臺(tái)中,那樣我們的用戶很容易跨不同的數(shù)據(jù)系統(tǒng)發(fā)現(xiàn)數(shù)據(jù)。

數(shù)據(jù)移動(dòng)

我們正在努力開(kāi)發(fā)發(fā)布/訂閱數(shù)據(jù)移動(dòng)工具,以便跨我們不同的子系統(tǒng),如數(shù)據(jù)倉(cāng)庫(kù)和Hadoop分布式文件系統(tǒng)(HDFS),支持?jǐn)?shù)據(jù)拷貝和調(diào)和。

策略

通過(guò)配額(目前的Hadoop配額需要做一些改進(jìn))進(jìn)行存儲(chǔ)容量管理,能夠制定良好的保留、歸檔和備份等策略。我們正根據(jù)集群的工作負(fù)載和特點(diǎn),跨不同的集群努力定義這些策略。

度量指標(biāo)、度量指標(biāo)、度量指標(biāo)

我們正在開(kāi)發(fā)成熟可靠的工具,以便生成度量指標(biāo),用于度量數(shù)據(jù)來(lái)源、使用情況、預(yù)算編制和利用率。一些Hadoop企業(yè)服務(wù)器體現(xiàn)的現(xiàn)有度量指標(biāo)有的不夠全面,有的只是臨時(shí)的,很難看清楚集群使用模式。

案例之二:通用電氣借助Hadoop分析用戶的情感

據(jù)通用電氣公司(GE)Hadoop技術(shù)部的產(chǎn)品經(jīng)理Linden Hillenbrand聲稱,情感分析很棘手–它不僅僅是個(gè)技術(shù)挑戰(zhàn),還是個(gè)業(yè)務(wù)挑戰(zhàn)。

在通用電氣公司,數(shù)字媒體小組和Hadoop小組通力合作,為高度依賴高級(jí)情感分析功能的營(yíng)銷部門(mén)開(kāi)發(fā)了一款交互式應(yīng)用軟件。

此舉目的在于,讓營(yíng)銷小組能夠通過(guò)我們開(kāi)展的各項(xiàng)活動(dòng),評(píng)估外界對(duì)通用電氣所持的看法(正面看法、中立看法或負(fù)面看法)。Hadoop負(fù)責(zé)支持該應(yīng)用軟件的情感分析部分,這部分對(duì)Hadoop來(lái)說(shuō)是一種高度密集的文本挖掘應(yīng)用環(huán)境。

他聲稱,利用 Hadoop應(yīng)對(duì)技術(shù)層面的這些挑戰(zhàn)帶來(lái)了重大改進(jìn)。

為了強(qiáng)調(diào)這一點(diǎn),Hillenbrand提到了公司在情感分析方面采取的獨(dú)特NSQL方法,這一方法帶來(lái)了80%的準(zhǔn)確率,也是Hadoop這個(gè)核心平臺(tái)的基礎(chǔ),確保公司未來(lái)在數(shù)據(jù)挖掘方面求得發(fā)展。正如下圖表明的那樣,通用電氣在利用數(shù)據(jù)挖掘以及新平臺(tái)帶來(lái)一種新的洞察力方面有了大幅改進(jìn)。

Hillenbrand表示,就通用電氣在內(nèi)部對(duì)Hadoop未來(lái)的展望而言,情感分析項(xiàng)目取得了雙重成功。它不僅為這家《財(cái)富》50強(qiáng)公司的營(yíng)銷小組提供了更準(zhǔn)確的結(jié)果,還為這家公司的下一代深度數(shù)據(jù)挖掘、分析和可視化等項(xiàng)目奠定了基礎(chǔ)。

案例之三:旅游行業(yè)的典型應(yīng)用案例

Orbitz Worldwide旗下的全球消費(fèi)者旅游品牌每天要處理數(shù)以百萬(wàn)計(jì)的搜索和交易。

通過(guò)關(guān)系數(shù)據(jù)庫(kù)等傳統(tǒng)系統(tǒng),存儲(chǔ)和處理這類活動(dòng)生成的越來(lái)越龐大的數(shù)據(jù)量變得越來(lái)越難,因而這家公司求助于Hadoop,幫助消除部分復(fù)雜性。

這家公司的首席軟件工程師Jnathan Seidman和另一名工程師Ramesh Venkataramiah一向樂(lè)于討論這家旅游網(wǎng)站的基礎(chǔ)設(shè)施如何加以管理。他們倆在最近面向多位聽(tīng)眾的一次交流中討論了Hive的作用,尤其是對(duì)一些關(guān)鍵搜索功能所起的作用。

Hadoop和Hive幫助這家在線旅游中心處理各項(xiàng)事務(wù):改進(jìn)讓游客可以迅速篩選和分類酒店的功能,到查看更宏觀內(nèi)部趨勢(shì)的功能,不一而足。據(jù)這兩位工程師聲稱,rbitz的大數(shù)據(jù)問(wèn)題讓它成為運(yùn)用Hadoop的”典型”。他們倆表示,面對(duì)很分散的服務(wù)網(wǎng)絡(luò)–這些服務(wù)每天生成數(shù)百GB大小的當(dāng)天日志,處理每天數(shù)百萬(wàn)的這些搜索和交易,這絕非易事。

他們倆演示了如何利用Hadoop和Hive來(lái)處理數(shù)據(jù);可能更重要的是,演示了什么使得這家公司的特定問(wèn)題最適合用Hadoop來(lái)處理(因?yàn)樾枰嵝训氖且稽c(diǎn),并非所有業(yè)務(wù)都有Hadoop的用武之地)

案例之四:Facebook更新Hadoop的狀態(tài)

雖然一些公司和機(jī)構(gòu)對(duì)其龐大的Hadoop系統(tǒng)秘而不宣,但是就已知存在的系統(tǒng)而言,F(xiàn)acebook的數(shù)據(jù)倉(cāng)庫(kù)Hadoop集群已成為世界上已知規(guī)模最大的Hadoop存儲(chǔ)集群。

下面是關(guān)于這個(gè)單一HDFS集群的一些詳細(xì)信息:

單一HDFS集群中存儲(chǔ)容量達(dá)21PB2000個(gè)機(jī)器每個(gè)機(jī)器12TB(有幾個(gè)機(jī)器是每個(gè)24TB)1200個(gè)機(jī)器每個(gè)有8個(gè)處理器核心,800個(gè)機(jī)器每個(gè)有16個(gè)核心每個(gè)機(jī)器有32GB內(nèi)存每個(gè)機(jī)器有15個(gè)映射/化簡(jiǎn)(map-reduce)任務(wù)

已配置存儲(chǔ)容量總共超過(guò)21PB,大于之前大名鼎鼎的雅虎集群(14PB)。在Hadoop的早期,F(xiàn)acebook就與另外幾個(gè)互聯(lián)網(wǎng)巨擘,充分利用這種框架來(lái)管理其不斷發(fā)展的業(yè)務(wù)。

由于每月活躍用戶超過(guò)4億個(gè),頁(yè)面瀏覽量超過(guò)5000億人次,每個(gè)月共享的內(nèi)容多達(dá)250億則,對(duì)于自稱能夠處理大數(shù)據(jù)問(wèn)題的任何技術(shù)而言,F(xiàn)acebook是再合適不過(guò)的應(yīng)用環(huán)境。

每天增加12TB的壓縮數(shù)據(jù)每天掃描800TB的壓縮數(shù)據(jù)每天處理25000個(gè)映射/化簡(jiǎn)作業(yè)HDFS里面有6500萬(wàn)個(gè)文件30000個(gè)客戶機(jī)同時(shí)訪問(wèn)HDFS NameNde

Facebook的軟件工程師、開(kāi)源倡導(dǎo)者Jnathan Gray演示了Facebook如何一直使用更龐大Hadoop平臺(tái)架構(gòu)的一部分:HBase,支持生產(chǎn)環(huán)境下的在線應(yīng)用程序和離線應(yīng)用程序。

雖然幻燈片有點(diǎn)深?yuàn)W,又針對(duì)特定環(huán)境,但是大致描述了HBase適合的那種復(fù)雜數(shù)據(jù)環(huán)境;而更重要的是,描述了這個(gè)環(huán)境需要怎樣的一些重大調(diào)整和專門(mén)知識(shí)才加以管理。HBase僅僅是Facebk管理海量數(shù)據(jù)、為用戶提供異常智能化服務(wù)的方法之一。

案例之五:Infchimps處理一百萬(wàn)倍的混合(mashup)

問(wèn)一下Phillip “Flip” Krmer哪里能找到幾乎任何的列表、電子表格或數(shù)據(jù)集,他會(huì)很高興地向你介紹他的公司InfChimps,這家公司自稱是”全世界的數(shù)據(jù)倉(cāng)庫(kù)”。

每個(gè)月都有成千上萬(wàn)的人訪問(wèn)該網(wǎng)站進(jìn)行搜索,查詢特定的數(shù)據(jù)。最近,該網(wǎng)站的用戶在查詢推特和社交網(wǎng)絡(luò)數(shù)據(jù)。其較為傳統(tǒng)的數(shù)據(jù)集包括其他熱門(mén)數(shù)據(jù),比如金融、體育比賽和股票數(shù)據(jù)。

Krmer表示,當(dāng)然,用戶們?cè)趧e的地方也能查詢這些數(shù)據(jù)集,但是他們常常訪問(wèn)InfChimps,未必是由于缺少數(shù)據(jù)或者很難獲得數(shù)據(jù),而是由于別處獲取數(shù)據(jù)的成本極其高昂,或者數(shù)據(jù)采用了不適合使用的格式–至少對(duì)Infchimps面向的開(kāi)發(fā)人員這個(gè)客戶群來(lái)說(shuō)是這樣。

這家公司正在裝配一個(gè)數(shù)據(jù)存儲(chǔ)庫(kù),里面含有成千上萬(wàn)的公共和商業(yè)數(shù)據(jù)集,許多數(shù)據(jù)集達(dá)到了TB級(jí)?,F(xiàn)代機(jī)器學(xué)習(xí)算法通過(guò)借助數(shù)據(jù)的一般結(jié)構(gòu),深入分析數(shù)據(jù);即便數(shù)據(jù)有機(jī)地嵌入到鏈接數(shù)據(jù)集里面,也是如此。當(dāng)然,所有這些工作會(huì)帶來(lái)一個(gè)復(fù)雜的數(shù)據(jù)環(huán)境,勢(shì)必需要一種能夠跨多個(gè)對(duì)象運(yùn)行的平臺(tái),無(wú)論對(duì)內(nèi)部(數(shù)據(jù)收集和管理方面)來(lái)說(shuō),還是對(duì)平臺(tái)用戶來(lái)說(shuō),都是如此。

Infchimps讓用戶們可以借助使用Hadoop以及亞馬遜云和Rackspace云的基礎(chǔ)設(shè)施,充分利用數(shù)據(jù)。你可以看到,這家公司充分利用了彈性Hadoop,還利用了亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)和Rackspace,同時(shí)在后端上使用Hadoop滿足自己的要求。

這家公司讓用戶可以隨時(shí)獲取自己所需的Hadoop資源,無(wú)論這些是預(yù)定資源、臨時(shí)資源還是專用資源。這種靈活的功能能夠支持夜間批處理作業(yè)、合規(guī)或測(cè)試集群、科學(xué)系統(tǒng)和生產(chǎn)型系統(tǒng)。加上為基于Hadoop的功能新增了Irnfan(Infchimps的自動(dòng)化系統(tǒng)配置工具)這一基礎(chǔ),彈性Hadoop讓用戶可以專門(mén)為手頭的作業(yè)調(diào)整資源。Infchimps聲稱,這簡(jiǎn)化了根據(jù)需要時(shí),映射或化簡(jiǎn)專門(mén)機(jī)器、高計(jì)算機(jī)器、高內(nèi)存機(jī)器等機(jī)器的過(guò)程。

案例之六:Hadoop在挖掘軍事情報(bào)方面的作用

Digital Reasning聲稱,就其中一個(gè)核心市場(chǎng):美國(guó)政府而言,它在”自動(dòng)理解大數(shù)據(jù)”方面一路領(lǐng)跑。

Digital Reasning致力于實(shí)現(xiàn)這個(gè)目標(biāo),為此最近竭力梳理來(lái)自美國(guó)情報(bào)部門(mén)的海量的非結(jié)構(gòu)化文本數(shù)據(jù),尋找可能危及國(guó)家安全的威脅。這款專門(mén)定制的軟件用于面向?qū)嶓w的分析(entity-riented analytics),已成為Synthesys技術(shù)的核心,這項(xiàng)技術(shù)則是其業(yè)務(wù)的立足之本。

該公司使用Cludera的發(fā)行版,而且其Synthesys平臺(tái)支持分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù)HBase。據(jù)Digital Reasning聲稱,”這種集成讓我們得以獲得超大規(guī)模處理功能,并且為政府和商業(yè)市場(chǎng)提供復(fù)雜數(shù)據(jù)分析能力。”

公司首席執(zhí)行官Tim Estes在幻燈片中具體介紹了公司的基礎(chǔ)設(shè)施和這一使用場(chǎng)景:

“Cludera及其Hadoop專家小組與我們緊密合作,在復(fù)雜分析領(lǐng)域取得了新的突破。Cludera和Digital Reasning共同為要求極高的客戶提供了針對(duì)極其龐大的不同數(shù)據(jù)集,識(shí)別和關(guān)聯(lián)實(shí)體的功能,”Digital Reasning的首席執(zhí)行官Tim Estes如是說(shuō)。

他繼續(xù)說(shuō),以前,只能”孤立地分析關(guān)鍵情報(bào)數(shù)據(jù)孤島”,但是Synthesys集成了Cludera的Apache Hadoop(CDH3)和HBase支持功能后,我們可以把用于自動(dòng)理解數(shù)據(jù)的算法與能以前所未有的方式處理規(guī)模和復(fù)雜性,把各部分聯(lián)系起來(lái)的平臺(tái)結(jié)合起來(lái)。”

作者:張浩

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)