天天躁狠狠躁狠狠躁夜夜躁68,美国黄色一级毛片,亚洲欧美激情国产区

一探Hadoop落地應(yīng)用案例

責(zé)任編輯：editor007

作者：張浩

2014-04-01 08:54:07

摘自：中關(guān)村在線

雖然Hadoop是眼下熱鬧非凡的大數(shù)據(jù)領(lǐng)域最熱話題，但它肯定不是可以解決數(shù)據(jù)中心和數(shù)據(jù)管理方面所有難題的靈丹妙藥。在通用電氣公司，數(shù)字媒體小組和Hadoop小組通力合作，為高度依賴高級(jí)情感分析功能的營銷部門開發(fā)了一款交互式應(yīng)用軟件。

雖然Hadoop是眼下熱鬧非凡的大數(shù)據(jù)領(lǐng)域最熱話題，但它肯定不是可以解決數(shù)據(jù)中心和數(shù)據(jù)管理方面所有難題的靈丹妙藥?？紤]到這一點(diǎn)，我們暫且不想猜測這個(gè)平臺(tái)未來會(huì)如何，也不想猜測各種數(shù)據(jù)密集型解決方案的開源技術(shù)未來會(huì)如何，而是關(guān)注讓Hadoop越來越火的實(shí)際應(yīng)用案例。

案例之一：eBay的Hadoop環(huán)境

eBay分析平臺(tái)開發(fā)小組的Anil Madan討論了這家拍賣行業(yè)的巨擘在如何充分發(fā)揮Hadoop平臺(tái)的強(qiáng)大功能，充分利用每天潮水般涌入的8TB至10TB數(shù)據(jù)。

雖然eBay只是幾年前才開始向生產(chǎn)型Hadoop環(huán)境轉(zhuǎn)移，但它卻是早在2007年就率先開始試用Hadoop的大規(guī)?；ヂ?lián)網(wǎng)公司之一，當(dāng)時(shí)它使用一個(gè)小型集群來處理機(jī)器學(xué)習(xí)和搜索相關(guān)性方面的問題。這些涉及的是少量數(shù)據(jù);Madan表示，但是就這個(gè)試驗(yàn)項(xiàng)目而言很有用;不過隨著數(shù)據(jù)日益增加、用戶活動(dòng)日益頻繁，eBay想充分利用幾個(gè)部門和整個(gè)用戶群當(dāng)中的數(shù)據(jù)。

eBay的第一個(gè)大型Hadoop集群是500個(gè)節(jié)點(diǎn)組成的Athena，這個(gè)專門建造的生產(chǎn)型平臺(tái)可以滿足eBay內(nèi)部幾個(gè)部門的要求。該集群只用了不到三個(gè)月就建成了，開始高速處理預(yù)測模型、解決實(shí)時(shí)問題;后來不斷擴(kuò)大規(guī)模，以滿足其他要求。

Madan表示，該集群現(xiàn)由eBay的許多小組使用，既用于日常生產(chǎn)作業(yè)，又用于一次性作業(yè)。小組使用Hadoop的公平調(diào)度器(Fair Scheduler)來管理資源分配、為各小組定義作業(yè)池、賦予權(quán)重、限制每個(gè)用戶和小組的并行作業(yè)，并且設(shè)定搶占超時(shí)和延遲調(diào)度。

雖然Madan經(jīng)常在臺(tái)上暢談Hadoop具有的實(shí)際價(jià)值，他也經(jīng)常提到工作小組在擴(kuò)建eBay基礎(chǔ)設(shè)施時(shí)面臨、繼續(xù)竭力克服的幾個(gè)主要挑戰(zhàn)。下面列出了與Hadoop有關(guān)的一系列挑戰(zhàn)：

可擴(kuò)展性

就現(xiàn)有版本而言，主服務(wù)器NameNde存在可擴(kuò)展性問題。由于集群的文件系統(tǒng)不斷擴(kuò)大，它占用的內(nèi)存空間也隨之?dāng)U大，因?yàn)樗颜麄€(gè)元數(shù)據(jù)保存在內(nèi)存中。1PB的存儲(chǔ)容量大概需要 1GB的內(nèi)存容量。幾種切實(shí)可行的解決方案是分層命名空間分區(qū)，或者結(jié)合使用Zkeeper和HBase，實(shí)現(xiàn)元數(shù)據(jù)管理。

可用性

NameNde的可用性對(duì)生產(chǎn)型工作負(fù)載來說至關(guān)重要。開源社區(qū)正致力于冷備份(cld standby)、暖備份(warm standby)和熱備份(ht standby)這幾個(gè)選項(xiàng)，比如檢查點(diǎn)(Checkpint)節(jié)點(diǎn)和備份(Backup)節(jié)點(diǎn);從輔助NameNde切換avatar的Avatar節(jié)點(diǎn);以及日志元數(shù)據(jù)復(fù)制技術(shù)。我們正在評(píng)估這些方案，以建立我們的生產(chǎn)型集群。

數(shù)據(jù)發(fā)現(xiàn)

在天生不支持?jǐn)?shù)據(jù)結(jié)構(gòu)的系統(tǒng)上支持?jǐn)?shù)據(jù)監(jiān)管、發(fā)現(xiàn)和模式管理。一個(gè)新項(xiàng)目準(zhǔn)備把Hive的元數(shù)據(jù)存儲(chǔ)區(qū)和wl合并成一個(gè)新系統(tǒng)，名為Hwl。我們旨在努力把該系統(tǒng)連接到我們的分析平臺(tái)中，那樣我們的用戶很容易跨不同的數(shù)據(jù)系統(tǒng)發(fā)現(xiàn)數(shù)據(jù)。

數(shù)據(jù)移動(dòng)

我們正在努力開發(fā)發(fā)布/訂閱數(shù)據(jù)移動(dòng)工具，以便跨我們不同的子系統(tǒng)，如數(shù)據(jù)倉庫和Hadoop分布式文件系統(tǒng)(HDFS)，支持?jǐn)?shù)據(jù)拷貝和調(diào)和。

策略

通過配額(目前的Hadoop配額需要做一些改進(jìn))進(jìn)行存儲(chǔ)容量管理，能夠制定良好的保留、歸檔和備份等策略。我們正根據(jù)集群的工作負(fù)載和特點(diǎn)，跨不同的集群努力定義這些策略。

度量指標(biāo)、度量指標(biāo)、度量指標(biāo)

我們正在開發(fā)成熟可靠的工具，以便生成度量指標(biāo)，用于度量數(shù)據(jù)來源、使用情況、預(yù)算編制和利用率。一些Hadoop企業(yè)服務(wù)器體現(xiàn)的現(xiàn)有度量指標(biāo)有的不夠全面，有的只是臨時(shí)的，很難看清楚集群使用模式。

案例之二：通用電氣借助Hadoop分析用戶的情感

據(jù)通用電氣公司(GE)Hadoop技術(shù)部的產(chǎn)品經(jīng)理Linden Hillenbrand聲稱，情感分析很棘手--它不僅僅是個(gè)技術(shù)挑戰(zhàn)，還是個(gè)業(yè)務(wù)挑戰(zhàn)。

在通用電氣公司，數(shù)字媒體小組和Hadoop小組通力合作，為高度依賴高級(jí)情感分析功能的營銷部門開發(fā)了一款交互式應(yīng)用軟件。

此舉目的在于，讓營銷小組能夠通過我們開展的各項(xiàng)活動(dòng)，評(píng)估外界對(duì)通用電氣所持的看法(正面看法、中立看法或負(fù)面看法)。Hadoop負(fù)責(zé)支持該應(yīng)用軟件的情感分析部分，這部分對(duì)Hadoop來說是一種高度密集的文本挖掘應(yīng)用環(huán)境。

他聲稱，利用 Hadoop應(yīng)對(duì)技術(shù)層面的這些挑戰(zhàn)帶來了重大改進(jìn)。

為了強(qiáng)調(diào)這一點(diǎn)，Hillenbrand提到了公司在情感分析方面采取的獨(dú)特NSQL方法，這一方法帶來了80%的準(zhǔn)確率，也是Hadoop這個(gè)核心平臺(tái)的基礎(chǔ)，確保公司未來在數(shù)據(jù)挖掘方面求得發(fā)展。正如下圖表明的那樣，通用電氣在利用數(shù)據(jù)挖掘以及新平臺(tái)帶來一種新的洞察力方面有了大幅改進(jìn)。

Hillenbrand表示，就通用電氣在內(nèi)部對(duì)Hadoop未來的展望而言，情感分析項(xiàng)目取得了雙重成功。它不僅為這家《財(cái)富》50強(qiáng)公司的營銷小組提供了更準(zhǔn)確的結(jié)果，還為這家公司的下一代深度數(shù)據(jù)挖掘、分析和可視化等項(xiàng)目奠定了基礎(chǔ)。

案例之三：旅游行業(yè)的典型應(yīng)用案例

Orbitz Worldwide旗下的全球消費(fèi)者旅游品牌每天要處理數(shù)以百萬計(jì)的搜索和交易。

通過關(guān)系數(shù)據(jù)庫等傳統(tǒng)系統(tǒng)，存儲(chǔ)和處理這類活動(dòng)生成的越來越龐大的數(shù)據(jù)量變得越來越難，因而這家公司求助于Hadoop，幫助消除部分復(fù)雜性。

這家公司的首席軟件工程師Jnathan Seidman和另一名工程師Ramesh Venkataramiah一向樂于討論這家旅游網(wǎng)站的基礎(chǔ)設(shè)施如何加以管理。他們倆在最近面向多位聽眾的一次交流中討論了Hive的作用，尤其是對(duì)一些關(guān)鍵搜索功能所起的作用。

Hadoop和Hive幫助這家在線旅游中心處理各項(xiàng)事務(wù)：改進(jìn)讓游客可以迅速篩選和分類酒店的功能，到查看更宏觀內(nèi)部趨勢的功能，不一而足。據(jù)這兩位工程師聲稱，rbitz的大數(shù)據(jù)問題讓它成為運(yùn)用Hadoop的"典型"。他們倆表示，面對(duì)很分散的服務(wù)網(wǎng)絡(luò)--這些服務(wù)每天生成數(shù)百GB大小的當(dāng)天日志，處理每天數(shù)百萬的這些搜索和交易，這絕非易事。

他們倆演示了如何利用Hadoop和Hive來處理數(shù)據(jù);可能更重要的是，演示了什么使得這家公司的特定問題最適合用Hadoop來處理(因?yàn)樾枰嵝训氖且稽c(diǎn)，并非所有業(yè)務(wù)都有Hadoop的用武之地)。

案例之四：Facebook更新Hadoop的狀態(tài)

雖然一些公司和機(jī)構(gòu)對(duì)其龐大的Hadoop系統(tǒng)秘而不宣，但是就已知存在的系統(tǒng)而言，F(xiàn)acebook的數(shù)據(jù)倉庫Hadoop集群已成為世界上已知規(guī)模最大的Hadoop存儲(chǔ)集群。

下面是關(guān)于這個(gè)單一HDFS集群的一些詳細(xì)信息：

單一HDFS集群中存儲(chǔ)容量達(dá)21PB

2000個(gè)機(jī)器

每個(gè)機(jī)器12TB(有幾個(gè)機(jī)器是每個(gè)24TB)

1200個(gè)機(jī)器每個(gè)有8個(gè)處理器核心，800個(gè)機(jī)器每個(gè)有16個(gè)核心

每個(gè)機(jī)器有32GB內(nèi)存

每個(gè)機(jī)器有15個(gè)映射/化簡(map-reduce)任務(wù)

已配置存儲(chǔ)容量總共超過21PB，大于之前大名鼎鼎的雅虎集群(14PB)。在Hadoop的早期，F(xiàn)acebook就與另外幾個(gè)互聯(lián)網(wǎng)巨擘，充分利用這種框架來管理其不斷發(fā)展的業(yè)務(wù)。

由于每月活躍用戶超過4億個(gè)，頁面瀏覽量超過5000億人次，每個(gè)月共享的內(nèi)容多達(dá)250億則，對(duì)于自稱能夠處理大數(shù)據(jù)問題的任何技術(shù)而言，F(xiàn)acebook是再合適不過的應(yīng)用環(huán)境。

Facebook的工程師與雅虎的Hadoop工程小組密切合作，把Hadoop推向更高的可擴(kuò)展性和性能。Facebook有許多Hadoop集群，其中最大的一個(gè)集群用于數(shù)據(jù)倉庫。下面一些統(tǒng)計(jì)數(shù)字描述了Facebook的數(shù)據(jù)倉庫Hadoop集群的幾個(gè)特點(diǎn)：

每天增加12TB的壓縮數(shù)據(jù)

每天掃描800TB的壓縮數(shù)據(jù)

每天處理25000個(gè)映射/化簡作業(yè)

HDFS里面有6500萬個(gè)文件

30000個(gè)客戶機(jī)同時(shí)訪問HDFS NameNde

Facebook的軟件工程師、開源倡導(dǎo)者Jnathan Gray演示了Facebook如何一直使用更龐大Hadoop平臺(tái)架構(gòu)的一部分：HBase，支持生產(chǎn)環(huán)境下的在線應(yīng)用程序和離線應(yīng)用程序。

雖然幻燈片有點(diǎn)深?yuàn)W，又針對(duì)特定環(huán)境，但是大致描述了HBase適合的那種復(fù)雜數(shù)據(jù)環(huán)境;而更重要的是，描述了這個(gè)環(huán)境需要怎樣的一些重大調(diào)整和專門知識(shí)才加以管理。HBase僅僅是Facebk管理海量數(shù)據(jù)、為用戶提供異常智能化服務(wù)的方法之一。

案例之五：Infchimps處理一百萬倍的混合(mashup)

問一下Phillip "Flip" Krmer哪里能找到幾乎任何的列表、電子表格或數(shù)據(jù)集，他會(huì)很高興地向你介紹他的公司InfChimps，這家公司自稱是"全世界的數(shù)據(jù)倉庫"。

每個(gè)月都有成千上萬的人訪問該網(wǎng)站進(jìn)行搜索，查詢特定的數(shù)據(jù)。最近，該網(wǎng)站的用戶在查詢推特和社交網(wǎng)絡(luò)數(shù)據(jù)。其較為傳統(tǒng)的數(shù)據(jù)集包括其他熱門數(shù)據(jù)，比如金融、體育比賽和股票數(shù)據(jù)。

Krmer表示，當(dāng)然，用戶們?cè)趧e的地方也能查詢這些數(shù)據(jù)集，但是他們常常訪問InfChimps，未必是由于缺少數(shù)據(jù)或者很難獲得數(shù)據(jù)，而是由于別處獲取數(shù)據(jù)的成本極其高昂，或者數(shù)據(jù)采用了不適合使用的格式--至少對(duì)Infchimps面向的開發(fā)人員這個(gè)客戶群來說是這樣。

這家公司正在裝配一個(gè)數(shù)據(jù)存儲(chǔ)庫，里面含有成千上萬的公共和商業(yè)數(shù)據(jù)集，許多數(shù)據(jù)集達(dá)到了TB級(jí)。現(xiàn)代機(jī)器學(xué)習(xí)算法通過借助數(shù)據(jù)的一般結(jié)構(gòu)，深入分析數(shù)據(jù);即便數(shù)據(jù)有機(jī)地嵌入到鏈接數(shù)據(jù)集里面，也是如此。當(dāng)然，所有這些工作會(huì)帶來一個(gè)復(fù)雜的數(shù)據(jù)環(huán)境，勢必需要一種能夠跨多個(gè)對(duì)象運(yùn)行的平臺(tái)，無論對(duì)內(nèi)部(數(shù)據(jù)收集和管理方面)來說，還是對(duì)平臺(tái)用戶來說，都是如此。

Infchimps讓用戶們可以借助使用Hadoop以及亞馬遜云和Rackspace云的基礎(chǔ)設(shè)施，充分利用數(shù)據(jù)。你可以看到，這家公司充分利用了彈性Hadoop，還利用了亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)和Rackspace，同時(shí)在后端上使用Hadoop滿足自己的要求。

這家公司讓用戶可以隨時(shí)獲取自己所需的Hadoop資源，無論這些是預(yù)定資源、臨時(shí)資源還是專用資源。這種靈活的功能能夠支持夜間批處理作業(yè)、合規(guī)或測試集群、科學(xué)系統(tǒng)和生產(chǎn)型系統(tǒng)。加上為基于Hadoop的功能新增了Irnfan(Infchimps的自動(dòng)化系統(tǒng)配置工具)這一基礎(chǔ)，彈性Hadoop讓用戶可以專門為手頭的作業(yè)調(diào)整資源。Infchimps聲稱，這簡化了根據(jù)需要時(shí)，映射或化簡專門機(jī)器、高計(jì)算機(jī)器、高內(nèi)存機(jī)器等機(jī)器的過程。

案例之六：Hadoop在挖掘軍事情報(bào)方面的作用

Digital Reasning聲稱，就其中一個(gè)核心市場：美國政府而言，它在"自動(dòng)理解大數(shù)據(jù)"方面一路領(lǐng)跑。

Digital Reasning致力于實(shí)現(xiàn)這個(gè)目標(biāo)，為此最近竭力梳理來自美國情報(bào)部門的海量的非結(jié)構(gòu)化文本數(shù)據(jù)，尋找可能危及國家安全的威脅。這款專門定制的軟件用于面向?qū)嶓w的分析(entity-riented analytics)，已成為Synthesys技術(shù)的核心，這項(xiàng)技術(shù)則是其業(yè)務(wù)的立足之本。

該公司使用Cludera的發(fā)行版，而且其Synthesys平臺(tái)支持分布式的、面向列的開源數(shù)據(jù)庫HBase。據(jù)Digital Reasning聲稱，"這種集成讓我們得以獲得超大規(guī)模處理功能，并且為政府和商業(yè)市場提供復(fù)雜數(shù)據(jù)分析能力。"

公司首席執(zhí)行官Tim Estes在幻燈片中具體介紹了公司的基礎(chǔ)設(shè)施和這一使用場景：

"Cludera及其Hadoop專家小組與我們緊密合作，在復(fù)雜分析領(lǐng)域取得了新的突破。Cludera和Digital Reasning共同為要求極高的客戶提供了針對(duì)極其龐大的不同數(shù)據(jù)集，識(shí)別和關(guān)聯(lián)實(shí)體的功能，"Digital Reasning的首席執(zhí)行官Tim Estes如是說。

他繼續(xù)說，以前，只能"孤立地分析關(guān)鍵情報(bào)數(shù)據(jù)孤島"，但是Synthesys集成了Cludera的Apache Hadoop(CDH3)和HBase支持功能后，我們可以把用于自動(dòng)理解數(shù)據(jù)的算法與能以前所未有的方式處理規(guī)模和復(fù)雜性，把各部分聯(lián)系起來的平臺(tái)結(jié)合起來。"

Hadoop