国产人成视频在线视频,国产黑丝在线播放

大數(shù)據(jù)新選擇 Impala取代MapReduce

責(zé)任編輯：vivian

2012-11-08 09:33:40

摘自：ZDNet

繼廣泛的部署Hadoop分布后，Cloudera公司最近在紐約市舉行的Strata + Hadoop World做了一件令人驚訝的事情。沒(méi)有召喚“老派”的數(shù)據(jù)庫(kù)和BI專業(yè)人員（即大部分的企業(yè)開(kāi)發(fā)人員和DBA人員）轉(zhuǎn)移到……

繼廣泛的部署Hadoop分布后，Cloudera公司最近在紐約市舉行的Strata + Hadoop World做了一件令人驚訝的事情。沒(méi)有召喚“老派”的數(shù)據(jù)庫(kù)和BI專業(yè)人員（即大部分的企業(yè)開(kāi)發(fā)人員和DBA人員）轉(zhuǎn)移到Hadoop，而是它公布了一個(gè)新產(chǎn)品的測(cè)試版Impala。Impala是包括Apache Hadoop在內(nèi)的Cloudera分布（CDH）4.1的一部分，是一個(gè)在Hadoop集群上運(yùn)行的本地SQL查詢引擎，提供原始HDFS數(shù)據(jù)和HBase數(shù)據(jù)庫(kù)的簡(jiǎn)單查詢?cè)L問(wèn)。

以批量化為中心的假設(shè)已經(jīng)破滅，MapReduce的處理必須使用大數(shù)據(jù)查詢的公司，可以說(shuō)是Hadoop的最堅(jiān)定倡導(dǎo)者。企業(yè)技能集的概念已經(jīng)過(guò)時(shí)，而且已經(jīng)一去不復(fù)返了，現(xiàn)在命令行是主流。SQL、BI工具和報(bào)告是現(xiàn)在的主要大數(shù)據(jù)技術(shù)應(yīng)用。Cloudera僅僅只是沖擊了你的想法嗎？

似曾相識(shí)？

也許你對(duì)此持懷疑態(tài)度。畢竟，隨著Hadoop發(fā)展的一陣時(shí)間，Hive提供了一個(gè)SQL查詢的抽象概念和BI工具的兼容性，那么，為什么Impala有重要的意義呢？事實(shí)上,這也是Cloudera的困擾。

Cloudera公司的CEO Mike Olson ，告訴了我關(guān)于Impala的技術(shù)細(xì)節(jié)。以下是詳細(xì)內(nèi)容：雖然Impal實(shí)際上是Hive和ODBC驅(qū)動(dòng)程序的API兼容，但它仍然是一個(gè)完全不同的“野獸”。就像其它的Hadoop任務(wù)一樣，Hive僅僅將SQL查詢轉(zhuǎn)換/編譯轉(zhuǎn)換為基于Java的MapReduce代碼，然后在批處理模式下運(yùn)行，并在MapReduce里增加了一個(gè)步驟，就是用Impala取代 MapReduce。

純粹的SQL

Impala是一種在Hadoop集群上運(yùn)行的本地、分布式SQL查詢引擎，并取代了Hadoop的MapReduce引擎。你仍然可以得到Hadoop的分布式文件系統(tǒng)。你仍然可以得到其物理的分布式體系結(jié)構(gòu)。你仍然有可能獲得局域數(shù)據(jù)，因?yàn)榉植荚诟鞴?jié)點(diǎn)的數(shù)據(jù)并沒(méi)有改變，唯一改變的是查詢方式。

BI工具來(lái)襲

不管Impala的創(chuàng)新程度如何，其生態(tài)系統(tǒng)已經(jīng)建立了。近日，我采訪了Pentaho公司共同創(chuàng)始人Rich Daley，和它的業(yè)務(wù)發(fā)展EVP Eddie White。他們告訴我，Pentaho已經(jīng)與Cloudera緊密合作，以確保Pentaho的商業(yè)智能工具可以利用Impala完美地工作。

Pentaho公司向我展示了他們運(yùn)行在Impala上的工具，并與Hive進(jìn)行了并行比較。在演示中，通過(guò)一個(gè)Pentaho的報(bào)告工具，同時(shí)在Hive命令行和在Impala上運(yùn)行一個(gè)特定的SQL查詢?？偛脼槲已菔玖巳绾螐腎mpala獲得數(shù)據(jù)，進(jìn)行了一系列的報(bào)告和數(shù)據(jù)可視化任務(wù)，并給我創(chuàng)建了一份完整的報(bào)告。當(dāng)他完成時(shí)，Hive版本的查詢（運(yùn)行在同一個(gè)集群的相同的數(shù)據(jù)）仍在運(yùn)行。