繼廣泛的部署Hadoop分布后,Cloudera公司最近在紐約市舉行的Strata + Hadoop World做了一件令人驚訝的事情。沒(méi)有召喚“老派”的數(shù)據(jù)庫(kù)和BI專業(yè)人員(即大部分的企業(yè)開(kāi)發(fā)人員和DBA人員)轉(zhuǎn)移到Hadoop,而是它公布了一個(gè)新產(chǎn)品的測(cè)試版Impala。Impala是包括Apache Hadoop在內(nèi)的Cloudera分布(CDH)4.1的一部分,是一個(gè)在Hadoop集群上運(yùn)行的本地SQL查詢引擎,提供原始HDFS數(shù)據(jù)和HBase數(shù)據(jù)庫(kù)的簡(jiǎn)單查詢?cè)L問(wèn)。
以批量化為中心的假設(shè)已經(jīng)破滅,MapReduce的處理必須使用大數(shù)據(jù)查詢的公司,可以說(shuō)是Hadoop的最堅(jiān)定倡導(dǎo)者。 企業(yè)技能集的概念已經(jīng)過(guò)時(shí),而且已經(jīng)一去不復(fù)返了,現(xiàn)在命令行是主流。SQL、BI工具和報(bào)告是現(xiàn)在的主要大數(shù)據(jù)技術(shù)應(yīng)用。Cloudera僅僅只是沖擊了你的想法嗎?
似曾相識(shí)?
也許你對(duì)此持懷疑態(tài)度。畢竟,隨著Hadoop發(fā)展的一陣時(shí)間,Hive提供了一個(gè)SQL查詢的抽象概念和BI工具的兼容性,那么,為什么Impala有重要的意義呢?事實(shí)上,這也是Cloudera的困擾。
Cloudera公司的CEO Mike Olson ,告訴了我關(guān)于Impala的技術(shù)細(xì)節(jié)。以下是詳細(xì)內(nèi)容:雖然Impal實(shí)際上是Hive和ODBC驅(qū)動(dòng)程序的API兼容,但它仍然是一個(gè)完全不同的“野獸”。就像其它的Hadoop任務(wù)一樣,Hive僅僅將SQL查詢轉(zhuǎn)換/編譯轉(zhuǎn)換為基于Java的MapReduce代碼,然后在批處理模式下運(yùn)行,并在MapReduce里增加了一個(gè)步驟,就是用Impala取代 MapReduce。
純粹的SQL
Impala是一種在Hadoop集群上運(yùn)行的本地、分布式SQL查詢引擎,并取代了Hadoop的MapReduce引擎。你仍然可以得到Hadoop的分布式文件系統(tǒng)。 你仍然可以得到其物理的分布式體系結(jié)構(gòu)。 你仍然有可能獲得局域數(shù)據(jù),因?yàn)榉植荚诟鞴?jié)點(diǎn)的數(shù)據(jù)并沒(méi)有改變,唯一改變的是查詢方式。
BI工具來(lái)襲
不管Impala的創(chuàng)新程度如何,其生態(tài)系統(tǒng)已經(jīng)建立了。近日,我采訪了Pentaho公司共同創(chuàng)始人Rich Daley,和它的業(yè)務(wù)發(fā)展EVP Eddie White。他們告訴我,Pentaho已經(jīng)與Cloudera緊密合作,以確保Pentaho的商業(yè)智能工具可以利用Impala完美地工作。
Pentaho公司向我展示了他們運(yùn)行在Impala上的工具,并與Hive進(jìn)行了并行比較。 在演示中,通過(guò)一個(gè)Pentaho的報(bào)告工具,同時(shí)在Hive命令行和在Impala上運(yùn)行一個(gè)特定的SQL查詢??偛脼槲已菔玖巳绾螐腎mpala獲得數(shù)據(jù),進(jìn)行了一系列的報(bào)告和數(shù)據(jù)可視化任務(wù),并給我創(chuàng)建了一份完整的報(bào)告。當(dāng)他完成時(shí),Hive版本的查詢(運(yùn)行在同一個(gè)集群的相同的數(shù)據(jù))仍在運(yùn)行。