雖然Hadoop是眼下熱鬧非凡的大數(shù)據(jù)領(lǐng)域最熱話題,但它肯定不是可以解決數(shù)據(jù)中心和數(shù)據(jù)管理方面所有難題的靈丹妙藥??紤]到這一點(diǎn),我們暫且不想猜測這個(gè)平臺(tái)未來會(huì)如何,也不想猜測各種數(shù)據(jù)密集型解決方案的開源技術(shù)未來會(huì)如何,而是關(guān)注讓Hadoop越來越火的實(shí)際應(yīng)用案例。
案例之一:eBay的Hadoop環(huán)境
eBay分析平臺(tái)開發(fā)小組的Anil Madan討論了這家拍賣行業(yè)的巨擘在如何充分發(fā)揮Hadoop平臺(tái)的強(qiáng)大功能,充分利用每天潮水般涌入的8TB至10TB數(shù)據(jù)。
雖然eBay只是幾年前才開始向生產(chǎn)型Hadoop環(huán)境轉(zhuǎn)移,但它卻是早在2007年就率先開始試用Hadoop的大規(guī)?;ヂ?lián)網(wǎng)公司之一,當(dāng)時(shí)它使用一個(gè)小型集群來處理機(jī)器學(xué)習(xí)和搜索相關(guān)性方面的問題。這些涉及的是少量數(shù)據(jù);Madan表示,但是就這個(gè)試驗(yàn)項(xiàng)目而言很有用;不過隨著數(shù)據(jù)日益增加、用戶活動(dòng)日益頻繁,eBay想充分利用幾個(gè)部門和整個(gè)用戶群當(dāng)中的數(shù)據(jù)。
eBay的第一個(gè)大型Hadoop集群是500個(gè)節(jié)點(diǎn)組成的Athena,這個(gè)專門建造的生產(chǎn)型平臺(tái)可以滿足eBay內(nèi)部幾個(gè)部門的要求。該集群只用了不到三個(gè)月就建成了,開始高速處理預(yù)測模型、解決實(shí)時(shí)問題;后來不斷擴(kuò)大規(guī)模,以滿足其他要求。
Madan表示,該集群現(xiàn)由eBay的許多小組使用,既用于日常生產(chǎn)作業(yè),又用于一次性作業(yè)。小組使用Hadoop的公平調(diào)度器(Fair Scheduler)來管理資源分配、為各小組定義作業(yè)池、賦予權(quán)重、限制每個(gè)用戶和小組的并行作業(yè),并且設(shè)定搶占超時(shí)和延遲調(diào)度。
雖然Madan經(jīng)常在臺(tái)上暢談Hadoop具有的實(shí)際價(jià)值,他也經(jīng)常提到工作小組在擴(kuò)建eBay基礎(chǔ)設(shè)施時(shí)面臨、繼續(xù)竭力克服的幾個(gè)主要挑戰(zhàn)。下面列出了與Hadoop有關(guān)的一系列挑戰(zhàn):
可擴(kuò)展性
就現(xiàn)有版本而言,主服務(wù)器NameNde存在可擴(kuò)展性問題。由于集群的文件系統(tǒng)不斷擴(kuò)大,它占用的內(nèi)存空間也隨之?dāng)U大,因?yàn)樗颜麄€(gè)元數(shù)據(jù)保存在內(nèi)存中。1PB的存儲(chǔ)容量大概需要 1GB的內(nèi)存容量。幾種切實(shí)可行的解決方案是分層命名空間分區(qū),或者結(jié)合使用Zkeeper和HBase,實(shí)現(xiàn)元數(shù)據(jù)管理。
可用性
NameNde的可用性對(duì)生產(chǎn)型工作負(fù)載來說至關(guān)重要。開源社區(qū)正致力于冷備份(cld standby)、暖備份(warm standby)和熱備份(ht standby)這幾個(gè)選項(xiàng),比如檢查點(diǎn)(Checkpint)節(jié)點(diǎn)和備份(Backup)節(jié)點(diǎn);從輔助NameNde切換avatar的Avatar節(jié)點(diǎn);以及日志元數(shù)據(jù)復(fù)制技術(shù)。我們正在評(píng)估這些方案,以建立我們的生產(chǎn)型集群。
數(shù)據(jù)發(fā)現(xiàn)
在天生不支持?jǐn)?shù)據(jù)結(jié)構(gòu)的系統(tǒng)上支持?jǐn)?shù)據(jù)監(jiān)管、發(fā)現(xiàn)和模式管理。一個(gè)新項(xiàng)目準(zhǔn)備把Hive的元數(shù)據(jù)存儲(chǔ)區(qū)和wl合并成一個(gè)新系統(tǒng),名為Hwl。我們旨在努力把該系統(tǒng)連接到我們的分析平臺(tái)中,那樣我們的用戶很容易跨不同的數(shù)據(jù)系統(tǒng)發(fā)現(xiàn)數(shù)據(jù)。
數(shù)據(jù)移動(dòng)
我們正在努力開發(fā)發(fā)布/訂閱數(shù)據(jù)移動(dòng)工具,以便跨我們不同的子系統(tǒng),如數(shù)據(jù)倉庫和Hadoop分布式文件系統(tǒng)(HDFS),支持?jǐn)?shù)據(jù)拷貝和調(diào)和。
策略
通過配額(目前的Hadoop配額需要做一些改進(jìn))進(jìn)行存儲(chǔ)容量管理,能夠制定良好的保留、歸檔和備份等策略。我們正根據(jù)集群的工作負(fù)載和特點(diǎn),跨不同的集群努力定義這些策略。
度量指標(biāo)、度量指標(biāo)、度量指標(biāo)
我們正在開發(fā)成熟可靠的工具,以便生成度量指標(biāo),用于度量數(shù)據(jù)來源、使用情況、預(yù)算編制和利用率。一些Hadoop企業(yè)服務(wù)器體現(xiàn)的現(xiàn)有度量指標(biāo)有的不夠全面,有的只是臨時(shí)的,很難看清楚集群使用模式。
案例之二:通用電氣借助Hadoop分析用戶的情感
據(jù)通用電氣公司(GE)Hadoop技術(shù)部的產(chǎn)品經(jīng)理Linden Hillenbrand聲稱,情感分析很棘手--它不僅僅是個(gè)技術(shù)挑戰(zhàn),還是個(gè)業(yè)務(wù)挑戰(zhàn)。
在通用電氣公司,數(shù)字媒體小組和Hadoop小組通力合作,為高度依賴高級(jí)情感分析功能的營銷部門開發(fā)了一款交互式應(yīng)用軟件。
此舉目的在于,讓營銷小組能夠通過我們開展的各項(xiàng)活動(dòng),評(píng)估外界對(duì)通用電氣所持的看法(正面看法、中立看法或負(fù)面看法)。Hadoop負(fù)責(zé)支持該應(yīng)用軟件的情感分析部分,這部分對(duì)Hadoop來說是一種高度密集的文本挖掘應(yīng)用環(huán)境。
他聲稱,利用 Hadoop應(yīng)對(duì)技術(shù)層面的這些挑戰(zhàn)帶來了重大改進(jìn)。
為了強(qiáng)調(diào)這一點(diǎn),Hillenbrand提到了公司在情感分析方面采取的獨(dú)特NSQL方法,這一方法帶來了80%的準(zhǔn)確率,也是Hadoop這個(gè)核心平臺(tái)的基礎(chǔ),確保公司未來在數(shù)據(jù)挖掘方面求得發(fā)展。正如下圖表明的那樣,通用電氣在利用數(shù)據(jù)挖掘以及新平臺(tái)帶來一種新的洞察力方面有了大幅改進(jìn)。
Hillenbrand表示,就通用電氣在內(nèi)部對(duì)Hadoop未來的展望而言,情感分析項(xiàng)目取得了雙重成功。它不僅為這家《財(cái)富》50強(qiáng)公司的營銷小組提供了更準(zhǔn)確的結(jié)果,還為這家公司的下一代深度數(shù)據(jù)挖掘、分析和可視化等項(xiàng)目奠定了基礎(chǔ)。
案例之三:旅游行業(yè)的典型應(yīng)用案例
Orbitz Worldwide旗下的全球消費(fèi)者旅游品牌每天要處理數(shù)以百萬計(jì)的搜索和交易。
通過關(guān)系數(shù)據(jù)庫等傳統(tǒng)系統(tǒng),存儲(chǔ)和處理這類活動(dòng)生成的越來越龐大的數(shù)據(jù)量變得越來越難,因而這家公司求助于Hadoop,幫助消除部分復(fù)雜性。
這家公司的首席軟件工程師Jnathan Seidman和另一名工程師Ramesh Venkataramiah一向樂于討論這家旅游網(wǎng)站的基礎(chǔ)設(shè)施如何加以管理。他們倆在最近面向多位聽眾的一次交流中討論了Hive的作用,尤其是對(duì)一些關(guān)鍵搜索功能所起的作用。
Hadoop和Hive幫助這家在線旅游中心處理各項(xiàng)事務(wù):改進(jìn)讓游客可以迅速篩選和分類酒店的功能,到查看更宏觀內(nèi)部趨勢的功能,不一而足。據(jù)這兩位工程師聲稱,rbitz的大數(shù)據(jù)問題讓它成為運(yùn)用Hadoop的"典型"。他們倆表示,面對(duì)很分散的服務(wù)網(wǎng)絡(luò)--這些服務(wù)每天生成數(shù)百GB大小的當(dāng)天日志,處理每天數(shù)百萬的這些搜索和交易,這絕非易事。
他們倆演示了如何利用Hadoop和Hive來處理數(shù)據(jù);可能更重要的是,演示了什么使得這家公司的特定問題最適合用Hadoop來處理(因?yàn)樾枰嵝训氖且稽c(diǎn),并非所有業(yè)務(wù)都有Hadoop的用武之地)。
案例之四:Facebook更新Hadoop的狀態(tài)
雖然一些公司和機(jī)構(gòu)對(duì)其龐大的Hadoop系統(tǒng)秘而不宣,但是就已知存在的系統(tǒng)而言,F(xiàn)acebook的數(shù)據(jù)倉庫Hadoop集群已成為世界上已知規(guī)模最大的Hadoop存儲(chǔ)集群。
下面是關(guān)于這個(gè)單一HDFS集群的一些詳細(xì)信息:
單一HDFS集群中存儲(chǔ)容量達(dá)21PB
2000個(gè)機(jī)器
每個(gè)機(jī)器12TB(有幾個(gè)機(jī)器是每個(gè)24TB)
1200個(gè)機(jī)器每個(gè)有8個(gè)處理器核心,800個(gè)機(jī)器每個(gè)有16個(gè)核心
每個(gè)機(jī)器有32GB內(nèi)存
每個(gè)機(jī)器有15個(gè)映射/化簡(map-reduce)任務(wù)
已配置存儲(chǔ)容量總共超過21PB,大于之前大名鼎鼎的雅虎集群(14PB)。在Hadoop的早期,F(xiàn)acebook就與另外幾個(gè)互聯(lián)網(wǎng)巨擘,充分利用這種框架來管理其不斷發(fā)展的業(yè)務(wù)。
由于每月活躍用戶超過4億個(gè),頁面瀏覽量超過5000億人次,每個(gè)月共享的內(nèi)容多達(dá)250億則,對(duì)于自稱能夠處理大數(shù)據(jù)問題的任何技術(shù)而言,F(xiàn)acebook是再合適不過的應(yīng)用環(huán)境。
Facebook的工程師與雅虎的Hadoop工程小組密切合作,把Hadoop推向更高的可擴(kuò)展性和性能。Facebook有許多Hadoop集群,其中最大的一個(gè)集群用于數(shù)據(jù)倉庫。下面一些統(tǒng)計(jì)數(shù)字描述了Facebook的數(shù)據(jù)倉庫Hadoop集群的幾個(gè)特點(diǎn):
每天增加12TB的壓縮數(shù)據(jù)
每天掃描800TB的壓縮數(shù)據(jù)
每天處理25000個(gè)映射/化簡作業(yè)
HDFS里面有6500萬個(gè)文件
30000個(gè)客戶機(jī)同時(shí)訪問HDFS NameNde
Facebook的軟件工程師、開源倡導(dǎo)者Jnathan Gray演示了Facebook如何一直使用更龐大Hadoop平臺(tái)架構(gòu)的一部分:HBase,支持生產(chǎn)環(huán)境下的在線應(yīng)用程序和離線應(yīng)用程序。
雖然幻燈片有點(diǎn)深?yuàn)W,又針對(duì)特定環(huán)境,但是大致描述了HBase適合的那種復(fù)雜數(shù)據(jù)環(huán)境;而更重要的是,描述了這個(gè)環(huán)境需要怎樣的一些重大調(diào)整和專門知識(shí)才加以管理。HBase僅僅是Facebk管理海量數(shù)據(jù)、為用戶提供異常智能化服務(wù)的方法之一。
案例之五:Infchimps處理一百萬倍的混合(mashup)
問一下Phillip "Flip" Krmer哪里能找到幾乎任何的列表、電子表格或數(shù)據(jù)集,他會(huì)很高興地向你介紹他的公司InfChimps,這家公司自稱是"全世界的數(shù)據(jù)倉庫"。
每個(gè)月都有成千上萬的人訪問該網(wǎng)站進(jìn)行搜索,查詢特定的數(shù)據(jù)。最近,該網(wǎng)站的用戶在查詢推特和社交網(wǎng)絡(luò)數(shù)據(jù)。其較為傳統(tǒng)的數(shù)據(jù)集包括其他熱門數(shù)據(jù),比如金融、體育比賽和股票數(shù)據(jù)。
Krmer表示,當(dāng)然,用戶們?cè)趧e的地方也能查詢這些數(shù)據(jù)集,但是他們常常訪問InfChimps,未必是由于缺少數(shù)據(jù)或者很難獲得數(shù)據(jù),而是由于別處獲取數(shù)據(jù)的成本極其高昂,或者數(shù)據(jù)采用了不適合使用的格式--至少對(duì)Infchimps面向的開發(fā)人員這個(gè)客戶群來說是這樣。
這家公司正在裝配一個(gè)數(shù)據(jù)存儲(chǔ)庫,里面含有成千上萬的公共和商業(yè)數(shù)據(jù)集,許多數(shù)據(jù)集達(dá)到了TB級(jí)。現(xiàn)代機(jī)器學(xué)習(xí)算法通過借助數(shù)據(jù)的一般結(jié)構(gòu),深入分析數(shù)據(jù);即便數(shù)據(jù)有機(jī)地嵌入到鏈接數(shù)據(jù)集里面,也是如此。當(dāng)然,所有這些工作會(huì)帶來一個(gè)復(fù)雜的數(shù)據(jù)環(huán)境,勢必需要一種能夠跨多個(gè)對(duì)象運(yùn)行的平臺(tái),無論對(duì)內(nèi)部(數(shù)據(jù)收集和管理方面)來說,還是對(duì)平臺(tái)用戶來說,都是如此。
Infchimps讓用戶們可以借助使用Hadoop以及亞馬遜云和Rackspace云的基礎(chǔ)設(shè)施,充分利用數(shù)據(jù)。你可以看到,這家公司充分利用了彈性Hadoop,還利用了亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)和Rackspace,同時(shí)在后端上使用Hadoop滿足自己的要求。
這家公司讓用戶可以隨時(shí)獲取自己所需的Hadoop資源,無論這些是預(yù)定資源、臨時(shí)資源還是專用資源。這種靈活的功能能夠支持夜間批處理作業(yè)、合規(guī)或測試集群、科學(xué)系統(tǒng)和生產(chǎn)型系統(tǒng)。加上為基于Hadoop的功能新增了Irnfan(Infchimps的自動(dòng)化系統(tǒng)配置工具)這一基礎(chǔ),彈性Hadoop讓用戶可以專門為手頭的作業(yè)調(diào)整資源。Infchimps聲稱,這簡化了根據(jù)需要時(shí),映射或化簡專門機(jī)器、高計(jì)算機(jī)器、高內(nèi)存機(jī)器等機(jī)器的過程。
案例之六:Hadoop在挖掘軍事情報(bào)方面的作用
Digital Reasning聲稱,就其中一個(gè)核心市場:美國政府而言,它在"自動(dòng)理解大數(shù)據(jù)"方面一路領(lǐng)跑。
Digital Reasning致力于實(shí)現(xiàn)這個(gè)目標(biāo),為此最近竭力梳理來自美國情報(bào)部門的海量的非結(jié)構(gòu)化文本數(shù)據(jù),尋找可能危及國家安全的威脅。這款專門定制的軟件用于面向?qū)嶓w的分析(entity-riented analytics),已成為Synthesys技術(shù)的核心,這項(xiàng)技術(shù)則是其業(yè)務(wù)的立足之本。
該公司使用Cludera的發(fā)行版,而且其Synthesys平臺(tái)支持分布式的、面向列的開源數(shù)據(jù)庫HBase。據(jù)Digital Reasning聲稱,"這種集成讓我們得以獲得超大規(guī)模處理功能,并且為政府和商業(yè)市場提供復(fù)雜數(shù)據(jù)分析能力。"
公司首席執(zhí)行官Tim Estes在幻燈片中具體介紹了公司的基礎(chǔ)設(shè)施和這一使用場景:
"Cludera及其Hadoop專家小組與我們緊密合作,在復(fù)雜分析領(lǐng)域取得了新的突破。Cludera和Digital Reasning共同為要求極高的客戶提供了針對(duì)極其龐大的不同數(shù)據(jù)集,識(shí)別和關(guān)聯(lián)實(shí)體的功能,"Digital Reasning的首席執(zhí)行官Tim Estes如是說。
他繼續(xù)說,以前,只能"孤立地分析關(guān)鍵情報(bào)數(shù)據(jù)孤島",但是Synthesys集成了Cludera的Apache Hadoop(CDH3)和HBase支持功能后,我們可以把用于自動(dòng)理解數(shù)據(jù)的算法與能以前所未有的方式處理規(guī)模和復(fù)雜性,把各部分聯(lián)系起來的平臺(tái)結(jié)合起來。"