Amazon Web Services準(zhǔn)備嘗試擴展云計算龍頭地位,繼續(xù)充實其數(shù)據(jù)基礎(chǔ)設(shè)施,這次使用的是新的查詢服務(wù)。
Athena是對Amazon Simple Storage Service或S3中的數(shù)據(jù)執(zhí)行SQL查詢的數(shù)據(jù)引擎,它是不斷增長的云數(shù)據(jù)陣容的最新成員。連同一些競爭性的軟件包一起,該軟件預(yù)示著云上數(shù)據(jù)更多的交互式查詢。
Athena的定價很簡單:在查詢中掃描每TB的數(shù)據(jù)收取5美元。這種按查詢支付的定價可能成為云上的規(guī)范。例如,谷歌表示,其BigQuery分析數(shù)據(jù)倉庫服務(wù)的價格為每TB 5美元。
Athena處理S3中的數(shù)據(jù),包括CSV,JSON ORC和Parquet的格式。與BigQuery一樣,根據(jù)Amazon Web Services(AWS)的說法,它是“無服務(wù)器的”,它僅在運行時作為服務(wù)而存在,它不需要長期運行的基礎(chǔ)設(shè)施或持續(xù)的管理。
因為它幾乎不會留下痕跡,所以Athena的工作可以被描述為旋轉(zhuǎn)式或瞬態(tài)工作。 它只在需要時才會出現(xiàn)。
451 Research的研究主管Matt Aslett說:“有了Athena,用戶只需要為查詢付費,而不是為底層基礎(chǔ)架構(gòu)或數(shù)據(jù)集成服務(wù)付費。”
與查詢那些存儲在Hadoop云服務(wù)或Amazon Elastic Compute Cloud中的數(shù)據(jù)相比,Aslett引用了查詢云存儲中數(shù)據(jù)的潛在優(yōu)勢。 這些優(yōu)點包括在S3中存儲數(shù)據(jù)的較低成本和易于擴展的特性。
適合快速隨機分析Amazon的領(lǐng)導(dǎo)人將Athena描述為對Redshift(公司在云中的數(shù)據(jù)倉庫)和Elastic MapReduce(EMR)的補充,Elastic MapReduce是用于Hadoop和Spark風(fēng)格數(shù)據(jù)處理的集群服務(wù)。兩者都旨在處理大型分析工作負載,AWS首席執(zhí)行官Andy Jassy如是說。
兩年前,在AWS re:Invent大會上,Amazon將與MySQL兼容的Aurora關(guān)系數(shù)據(jù)庫添加到其產(chǎn)品組合中,直接面向IBM的DB2,Microsoft的SQL Server和Oracle的12c數(shù)據(jù)庫。除了Athena,該公司還發(fā)布了一個與PostgreSQL兼容的Aurora預(yù)覽版本,而PostgreSQL是另一個開源數(shù)據(jù)庫。
但數(shù)據(jù)管理和分析焦點主要集中在Athena上。“Redshift和EMR已經(jīng)為大型和小型公司提供了PB級的分析功能,但是有些客戶必須對那些他們想要進行快速查詢的數(shù)據(jù)做隨機分析工作(較小的工作),”Jassy說。因此,戰(zhàn)術(shù)或數(shù)據(jù)發(fā)現(xiàn)工作可能是Athena的最佳目標(biāo)。
內(nèi)置PrestoAthena的底層是Presto,它是一個開源的分布式SQL查詢引擎,最初來自于Facebook的工程操作。該軟件還可在Netflix,Airbnb上看到,這在幫助亞馬遜和其他組織偽造Athena上起了一定的作用。Presto是由Apache軟件基金會許可證覆蓋的。
雖然Athena和Presto已經(jīng)支持對那些可能從未進入Hadoop領(lǐng)域的數(shù)據(jù)進行內(nèi)存查詢,但它們可能已經(jīng)屬于SQL-on-Hadoop工具的常見項。
Presto去年有一個企業(yè)軟件管家,當(dāng)時Teradata承諾了對Presto的支持,它有一個不斷增加的支持者名單。Aslett指出Qubole和Treasure Data是Presto方法的其他支持者。
“Amazon選擇Presto作為Athena數(shù)據(jù)引擎的基礎(chǔ)是Presto對多個數(shù)據(jù)源的標(biāo)準(zhǔn)SQL分析的適用性,”Aslett說。 他補充說,這些工具很重要,因為SQL技能是在企業(yè)內(nèi)部廣泛使用的。
同時處理SQL-on-Hadoop查詢是、來自于MapR Technologies的Drill。它在發(fā)布了一個新版本,改進了互動查詢延遲。 Drill是Dremel的開源版本,Dremel是Google在2010年的一份研究論文中創(chuàng)建和概述的查詢技術(shù),也是Google本身提供的BigQuery云服務(wù)的基礎(chǔ)。 在Microsoft Azure陣營中,公司去年在收購初創(chuàng)公司Metanautix時提供了分布式SQL查詢功能,受Dremel的啟發(fā),它提供了類似的軟件。
對S3上SQL的支持一直在上升。 Presto經(jīng)常與Impala聯(lián)系在一起,Impala是Hadoop供應(yīng)商Cloudera創(chuàng)建的另一種開源查詢技術(shù),它最近發(fā)布了可直接針對Amazon S3中的數(shù)據(jù)運行的分布式Impala軟件。
另一個Hadoop玩家Hortonworks,強調(diào)改進Hive以獲得更快的SQL查詢,它發(fā)布了Hortonworks Data Cloud for AWS,改進了與Amazon S3的集成,更好地支持Hortonworks所謂的“臨時工作負載”——一次性作業(yè),而其中一些數(shù)據(jù)不需要持久性。
無需ETL根據(jù)Aslett和其他人的說法,在像Presto這樣的高度分布式SQL工具這類一般行業(yè)活動的背后,是一種分析數(shù)據(jù)的驅(qū)動力,它無需首先提取并加載到數(shù)據(jù)庫或數(shù)據(jù)倉庫。
位于費城的Stitch Inc.的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Jake Stein表示,亞馬遜提供的Athena是一個“無ETL”的解決方案,它是今年早些時候作為RJMetrics的子公司而成立的一家提取,轉(zhuǎn)換和負載(ETL)服務(wù)提供商,而當(dāng)時該公司是被電子商務(wù)供應(yīng)商Magento收購了。
Stein表示,“無ETL”意味著ETL過程由提取,加載和轉(zhuǎn)換(ELT)取代,其中數(shù)據(jù)轉(zhuǎn)換在SQL中根據(jù)下游使用而不是前期在需要時在裝載階段發(fā)生。他承認,ETL公司像他這樣推廣ELT的概念可能是令人驚訝的,但他解釋了后者的好處。
“對于Athena,你從源中提取數(shù)據(jù),然后在沒有或有最小的預(yù)處理情況下對其進行加載。這種風(fēng)格的ELT是大多數(shù)用例的一個優(yōu)越的模型,因為它帶來更簡單的架構(gòu),并讓分析師更多地了解原始數(shù)據(jù)是如何變換成為已經(jīng)轉(zhuǎn)換過的數(shù)據(jù)。”
另一個跡象表明,Amazon計劃填補其數(shù)據(jù)相關(guān)產(chǎn)品的任何空白,該公司還在re:Invent中介紹了托管ETL服務(wù)。有一款被稱為AWS Glue的服務(wù),該服務(wù)會抓取用戶的數(shù)據(jù)源,創(chuàng)建目錄并處理數(shù)據(jù)轉(zhuǎn)換和調(diào)度。 目前,感興趣的用戶可以請求參與受控測試。
瞬態(tài)運動除了ETL之外,Athena數(shù)據(jù)引擎等產(chǎn)品可能會對現(xiàn)狀帶來更多的顛覆。
使用云存儲而不是Hadoop數(shù)據(jù)存儲的能力可能導(dǎo)致一些人將Athena視為對云中Hadoop的威脅,這一舉措最近引起了關(guān)注,因為Hadoop軟件供應(yīng)商(源自本地計算) 轉(zhuǎn)而支持S3,瞬態(tài)工作負載和即付即用定價。
但Aslett并不同意,他說Hadoop和關(guān)系數(shù)據(jù)倉庫仍然可以提供吞吐量和延遲優(yōu)于分析云存儲中的數(shù)據(jù)的方法。
“Athena的推出并不意味著AWS云上Hadoop的終結(jié),”他說,“對于具有復(fù)雜查詢要求的長期和大型項目,Redshift或EMR可能是明智的選擇。