久久精品国产精品亚洲毛片,2019一级a片免费观看,国产偷窥自拍视频

Amazon引入Athena 難道是 AWS云上Hadoop的終結(jié)？

責(zé)任編輯：editor005

作者：Jack Vaughan

2017-01-03 14:32:18

摘自：TechTarget中國

Amazon Web Services準(zhǔn)備嘗試擴展云計算龍頭地位，繼續(xù)充實其數(shù)據(jù)基礎(chǔ)設(shè)施，這次使用的是新的查詢服務(wù)。451 Research的研究主管Matt Aslett說：“有了Athena，用戶只需要為查詢付費，而不是為底層基礎(chǔ)架構(gòu)或數(shù)據(jù)集成服務(wù)付費。

Amazon Web Services準(zhǔn)備嘗試擴展云計算龍頭地位，繼續(xù)充實其數(shù)據(jù)基礎(chǔ)設(shè)施，這次使用的是新的查詢服務(wù)。

Athena是對Amazon Simple Storage Service或S3中的數(shù)據(jù)執(zhí)行SQL查詢的數(shù)據(jù)引擎，它是不斷增長的云數(shù)據(jù)陣容的最新成員。連同一些競爭性的軟件包一起，該軟件預(yù)示著云上數(shù)據(jù)更多的交互式查詢。

Athena的定價很簡單：在查詢中掃描每TB的數(shù)據(jù)收取5美元。這種按查詢支付的定價可能成為云上的規(guī)范。例如，谷歌表示，其BigQuery分析數(shù)據(jù)倉庫服務(wù)的價格為每TB 5美元。

Athena處理S3中的數(shù)據(jù)，包括CSV，JSON ORC和Parquet的格式。與BigQuery一樣，根據(jù)Amazon Web Services（AWS）的說法，它是“無服務(wù)器的”，它僅在運行時作為服務(wù)而存在，它不需要長期運行的基礎(chǔ)設(shè)施或持續(xù)的管理。

因為它幾乎不會留下痕跡，所以Athena的工作可以被描述為旋轉(zhuǎn)式或瞬態(tài)工作。它只在需要時才會出現(xiàn)。

451 Research的研究主管Matt Aslett說：“有了Athena，用戶只需要為查詢付費，而不是為底層基礎(chǔ)架構(gòu)或數(shù)據(jù)集成服務(wù)付費。”

與查詢那些存儲在Hadoop云服務(wù)或Amazon Elastic Compute Cloud中的數(shù)據(jù)相比，Aslett引用了查詢云存儲中數(shù)據(jù)的潛在優(yōu)勢。這些優(yōu)點包括在S3中存儲數(shù)據(jù)的較低成本和易于擴展的特性。

適合快速隨機分析

Amazon的領(lǐng)導(dǎo)人將Athena描述為對Redshift（公司在云中的數(shù)據(jù)倉庫）和Elastic MapReduce（EMR）的補充，Elastic MapReduce是用于Hadoop和Spark風(fēng)格數(shù)據(jù)處理的集群服務(wù)。兩者都旨在處理大型分析工作負載，AWS首席執(zhí)行官Andy Jassy如是說。

兩年前，在AWS re：Invent大會上，Amazon將與MySQL兼容的Aurora關(guān)系數(shù)據(jù)庫添加到其產(chǎn)品組合中，直接面向IBM的DB2，Microsoft的SQL Server和Oracle的12c數(shù)據(jù)庫。除了Athena，該公司還發(fā)布了一個與PostgreSQL兼容的Aurora預(yù)覽版本，而PostgreSQL是另一個開源數(shù)據(jù)庫。

但數(shù)據(jù)管理和分析焦點主要集中在Athena上。“Redshift和EMR已經(jīng)為大型和小型公司提供了PB級的分析功能，但是有些客戶必須對那些他們想要進行快速查詢的數(shù)據(jù)做隨機分析工作（較小的工作），”Jassy說。因此，戰(zhàn)術(shù)或數(shù)據(jù)發(fā)現(xiàn)工作可能是Athena的最佳目標(biāo)。

內(nèi)置Presto

Athena的底層是Presto，它是一個開源的分布式SQL查詢引擎，最初來自于Facebook的工程操作。該軟件還可在Netflix，Airbnb上看到，這在幫助亞馬遜和其他組織偽造Athena上起了一定的作用。Presto是由Apache軟件基金會許可證覆蓋的。

雖然Athena和Presto已經(jīng)支持對那些可能從未進入Hadoop領(lǐng)域的數(shù)據(jù)進行內(nèi)存查詢，但它們可能已經(jīng)屬于SQL-on-Hadoop工具的常見項。

Presto去年有一個企業(yè)軟件管家，當(dāng)時Teradata承諾了對Presto的支持，它有一個不斷增加的支持者名單。Aslett指出Qubole和Treasure Data是Presto方法的其他支持者。

“Amazon選擇Presto作為Athena數(shù)據(jù)引擎的基礎(chǔ)是Presto對多個數(shù)據(jù)源的標(biāo)準(zhǔn)SQL分析的適用性，”Aslett說。他補充說，這些工具很重要，因為SQL技能是在企業(yè)內(nèi)部廣泛使用的。

同時處理SQL-on-Hadoop查詢是、來自于MapR Technologies的Drill。它在發(fā)布了一個新版本，改進了互動查詢延遲。 Drill是Dremel的開源版本，Dremel是Google在2010年的一份研究論文中創(chuàng)建和概述的查詢技術(shù)，也是Google本身提供的BigQuery云服務(wù)的基礎(chǔ)。在Microsoft Azure陣營中，公司去年在收購初創(chuàng)公司Metanautix時提供了分布式SQL查詢功能，受Dremel的啟發(fā)，它提供了類似的軟件。

對S3上SQL的支持一直在上升。 Presto經(jīng)常與Impala聯(lián)系在一起，Impala是Hadoop供應(yīng)商Cloudera創(chuàng)建的另一種開源查詢技術(shù)，它最近發(fā)布了可直接針對Amazon S3中的數(shù)據(jù)運行的分布式Impala軟件。

另一個Hadoop玩家Hortonworks，強調(diào)改進Hive以獲得更快的SQL查詢，它發(fā)布了Hortonworks Data Cloud for AWS，改進了與Amazon S3的集成，更好地支持Hortonworks所謂的“臨時工作負載”——一次性作業(yè)，而其中一些數(shù)據(jù)不需要持久性。

無需ETL

根據(jù)Aslett和其他人的說法，在像Presto這樣的高度分布式SQL工具這類一般行業(yè)活動的背后，是一種分析數(shù)據(jù)的驅(qū)動力，它無需首先提取并加載到數(shù)據(jù)庫或數(shù)據(jù)倉庫。

位于費城的Stitch Inc.的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Jake Stein表示，亞馬遜提供的Athena是一個“無ETL”的解決方案，它是今年早些時候作為RJMetrics的子公司而成立的一家提取，轉(zhuǎn)換和負載（ETL）服務(wù)提供商，而當(dāng)時該公司是被電子商務(wù)供應(yīng)商Magento收購了。

Stein表示，“無ETL”意味著ETL過程由提取，加載和轉(zhuǎn)換（ELT）取代，其中數(shù)據(jù)轉(zhuǎn)換在SQL中根據(jù)下游使用而不是前期在需要時在裝載階段發(fā)生。他承認，ETL公司像他這樣推廣ELT的概念可能是令人驚訝的，但他解釋了后者的好處。

“對于Athena，你從源中提取數(shù)據(jù)，然后在沒有或有最小的預(yù)處理情況下對其進行加載。這種風(fēng)格的ELT是大多數(shù)用例的一個優(yōu)越的模型，因為它帶來更簡單的架構(gòu)，并讓分析師更多地了解原始數(shù)據(jù)是如何變換成為已經(jīng)轉(zhuǎn)換過的數(shù)據(jù)。”

另一個跡象表明，Amazon計劃填補其數(shù)據(jù)相關(guān)產(chǎn)品的任何空白，該公司還在re：Invent中介紹了托管ETL服務(wù)。有一款被稱為AWS Glue的服務(wù)，該服務(wù)會抓取用戶的數(shù)據(jù)源，創(chuàng)建目錄并處理數(shù)據(jù)轉(zhuǎn)換和調(diào)度。目前，感興趣的用戶可以請求參與受控測試。

瞬態(tài)運動

除了ETL之外，Athena數(shù)據(jù)引擎等產(chǎn)品可能會對現(xiàn)狀帶來更多的顛覆。

使用云存儲而不是Hadoop數(shù)據(jù)存儲的能力可能導(dǎo)致一些人將Athena視為對云中Hadoop的威脅，這一舉措最近引起了關(guān)注，因為Hadoop軟件供應(yīng)商（源自本地計算）轉(zhuǎn)而支持S3，瞬態(tài)工作負載和即付即用定價。

但Aslett并不同意，他說Hadoop和關(guān)系數(shù)據(jù)倉庫仍然可以提供吞吐量和延遲優(yōu)于分析云存儲中的數(shù)據(jù)的方法。

“Athena的推出并不意味著AWS云上Hadoop的終結(jié)，”他說，“對于具有復(fù)雜查詢要求的長期和大型項目，Redshift或EMR可能是明智的選擇。

Athena Amazon