11月20日 新聞消息:在上個月發(fā)布的Apache Hadoop 2.2的基礎(chǔ)上,大數(shù)據(jù)應用程序平臺專家Concurrent今天推出了新版本的Cascading——其大數(shù)據(jù)應用框架。
Concurrent公司還推出了Cascading Lingual 1.0,這是提供全面ANSI SQL接口的開源項目。
Cascading是一個獨立的開源Java應用程序框架,它被設(shè)計作為MapReduce的替代API。Cascading讓Java開發(fā)人員可以使用他們現(xiàn)有的技能在Hadoop上構(gòu)建大數(shù)據(jù)應用程序。
Cascading創(chuàng)造者Concurrent公司創(chuàng)始人兼首席技術(shù)官Chris Wensel表示:“我創(chuàng)建Cascading完全是因為憤怒,在我使用MapReduce后,我發(fā)誓決不再使用它了。”
這個最新版本Cascading 2.5增加了對Hadoop 2.2的支持,該版本包括Hadoop 2.2版本中引入的新的YARN架構(gòu)。Apache Hadoop YARN(另有一個資源管理器)作為Hadoop操作系統(tǒng),利用單一用途數(shù)據(jù)平臺來進行批處理,并將其發(fā)展成為多用途平臺—可進行批處理、交互式、網(wǎng)絡(luò)和流處理。
YARN作為存儲在Hadoop分布式文件系統(tǒng)(HDFS)上數(shù)據(jù)的主要資源管理器以及訪問調(diào)解器,讓企業(yè)可以將數(shù)據(jù)存儲在一個地方,然后以多種方式與這些數(shù)據(jù)進行交互,具有一致的服務(wù)水平。
企業(yè)現(xiàn)在可以使用Cascading來利用針對單一大數(shù)據(jù)處理應用程序的Java、傳統(tǒng)SQL和預測建模投資。
Hadoop 2的遷移路徑
Concurrent公司首席執(zhí)行官Gary Nakamura表示,Cascading并不專門利用YARN,但它可以讓用戶無縫地遷移其應用程序到Hadoop 2,并利用YARN。Scalding、Cascalog和PyCascading等域特定語言(DSLs)也可以無縫地遷移到Hadoop 2。同樣地,當Cascading位于Hadoop堆棧時,它將支持Apache Tez。
Concurrent還為復的連接操作提高了性能,并優(yōu)化了動態(tài)分區(qū),以及更有效地在HDFS上存儲經(jīng)過處理的數(shù)據(jù)。
除了Cascading,Concurrent還宣布Cascading Lingual 1.0開始發(fā)售,該產(chǎn)品能夠幫助已經(jīng)投入巨資到商業(yè)智能(BI)工具(例如Pentaho、Jaspersoft和Congnos)以及培訓的企業(yè)快速訪問存儲在Hadoop上的數(shù)據(jù)。Lingual允許用戶利用他們現(xiàn)有的SQL技能以及系統(tǒng)來在Hadoo上創(chuàng)建和運行應用程序。
Concurrent公司的Wensel表示,Lingual讓任何熟悉SQL的人可以立即利用其JDBC兼容的BI或者首選桌面工具來訪問存儲在Hadoop上的工具。
亞馬遜云計算服務(wù)亞馬遜彈性MapReduce(EMR)集團總經(jīng)理Steve McPherson表示:“Cascading是大數(shù)據(jù)應用程序開發(fā)生態(tài)系統(tǒng)的重要組件,Lingual是讓其更容易構(gòu)建大數(shù)據(jù)應用程序的另一個重要進展。”
“現(xiàn)在,亞馬遜彈性MapReduce客戶可以利用Lingual來整合亞馬遜云計算服務(wù)上不同的數(shù)據(jù)存儲與亞馬遜S3和Redshift等服務(wù),并且,它們可以處理這些數(shù)據(jù),并通過標準ANSI SQL命令將其存儲在亞馬遜EMR中,”McPherson表示,“這讓客戶可以更容易的使用自己喜愛的BI工具來查詢數(shù)據(jù)。”