在一大三?。簛嗰R遜,微軟、谷歌、IBM ,IaaS四強(qiáng)爭(zhēng)霸中,我們有報(bào)道過(guò)IaaS領(lǐng)域的硝煙彌漫,而Amazon在市場(chǎng)占有率上有著壓倒性的優(yōu)勢(shì)——租用的計(jì)算資源是象限中其它14個(gè)供應(yīng)商的5倍,IaaS霸主地位毋庸置疑。然而,區(qū)別于其IaaS的絕對(duì)優(yōu)勢(shì),AWS在PaaS領(lǐng)域的日子似乎“沒(méi)那么好過(guò)”,其領(lǐng)先地位受GCE、 Azure、Heroku等眾多勁敵窺伺。然而AWS之所以為AWS,不僅因?yàn)槠鋽?shù)量龐大的合作伙伴,還有其獨(dú)一無(wú)二的云服務(wù),就在上月,Amazon一掃之前在PaaS領(lǐng)域的低調(diào),在宣布EMR支持Impala之后,更推出了流計(jì)算服務(wù)Kinesis。
EMR支持Impala:AWS軍團(tuán)亮劍流計(jì)算之始
本月,Amazon宣布EMR支持Impala,Impala是專(zhuān)為實(shí)時(shí)、ad-hoc查詢?cè)O(shè)計(jì)的開(kāi)源工具,使用類(lèi)SQL語(yǔ)言。在 AmazonEMR上使用Impala,用戶可以在非結(jié)構(gòu)數(shù)據(jù)上執(zhí)行快速的交互分析。對(duì)于許多類(lèi)型的查詢,比Hive快很多。Impala的性能使它成為迭代查詢和許多流行BI工具一個(gè)很好的引擎。通過(guò)Amazon EMR,用戶可以用Impala作一個(gè)可靠的數(shù)據(jù)倉(cāng)庫(kù)來(lái)執(zhí)行數(shù)據(jù)分析、監(jiān)控和商務(wù)智能等任務(wù)。這里是三個(gè)用例:
•取代Hive,在長(zhǎng)期運(yùn)行的集群上使用Impala來(lái)執(zhí)行ad-hoc查詢。Impala可以將迭代查詢時(shí)間減少至秒級(jí),使它非常適合做快速調(diào)研。用戶可以在同一個(gè)集群上進(jìn)行流計(jì)算和批處理,在一個(gè)長(zhǎng)期運(yùn)行的Hive和Pig分析集群上使用Impala,或者為Impala查詢建立一個(gè)經(jīng)過(guò)專(zhuān)門(mén)調(diào)優(yōu)的集群。
•在短暫的Amazon EMR集群上使用Impala而不是Hive來(lái)進(jìn)行批ETL作業(yè)。對(duì)于很多查詢來(lái)說(shuō),Impala比Hive快,就像Hive,Impala使用SQL,所以,從Hive到Impala查詢修改工作量并不大。
•結(jié)合使用Impala和第三方商業(yè)智能工具。通過(guò)給集群連一個(gè)客戶端ODBC或者JDBC驅(qū)動(dòng),你可以將Impala作為強(qiáng)大可視化工具及監(jiān)視面板的查詢引擎。
Kinesis的全面可用:AWS之所以為AWS的原因
Kinesis,AWS于11月宣布的流數(shù)據(jù)服務(wù),現(xiàn)已公開(kāi)使用。這種服務(wù)理論上可以與流行的開(kāi)源技術(shù)(比如Apache Strom)相匹敵,而當(dāng)下也只有Kinesis能帶來(lái)完全的管理經(jīng)驗(yàn),這種經(jīng)驗(yàn)成為AWS的進(jìn)程中的標(biāo)準(zhǔn)。
隨著公司(尤其是基于因特網(wǎng)的公司)尋求超越他們倚仗已久的批處理方式,流處理正變得越來(lái)越流行。流處理主要利用數(shù)據(jù)的實(shí)時(shí)優(yōu)勢(shì),而不是等待幾分鐘,甚至是數(shù)小時(shí)來(lái)分析收集所有(前一批正在處理之后)的數(shù)據(jù),對(duì)這項(xiàng)工作而言Storm可能是最流行的工具,在發(fā)往其它地方(比如Hadoop)與歷史數(shù)據(jù)進(jìn)行分析之前,Storm就會(huì)在數(shù)據(jù)傳輸過(guò)程中進(jìn)行處理。
Twitter通過(guò)2011年購(gòu)買(mǎi)Backtype獲得Strom建立者Nathan Marz,因此它應(yīng)該是個(gè)典型的Storm用戶。Storm幫助Twitter完成許多事情,比如讓用戶Timeline保持實(shí)時(shí)更新,但是該公司同樣依靠了許多其他工具(Hadoop,當(dāng)然名列其中)來(lái)做一些長(zhǎng)期趨勢(shì)分析和搜索引擎模型訓(xùn)練。
就像Storm,在將數(shù)據(jù)運(yùn)輸?shù)搅硪粋€(gè)數(shù)據(jù)存儲(chǔ)(基于AWS平臺(tái)的ElasticMapReduce、Redshift或者DynamoDB)之前,Kinesis就能夠進(jìn)行實(shí)時(shí)處理。但是區(qū)別于 Storm,Kinesis保存數(shù)據(jù)的時(shí)間可以長(zhǎng)達(dá)24小時(shí),同時(shí),通過(guò)軟件開(kāi)發(fā)工作包或者SDK可以自動(dòng)地?cái)U(kuò)展到每小時(shí)上千個(gè)TB 。Kinesis還含一個(gè)轉(zhuǎn)移數(shù)據(jù)到Storm的連接器,AWS數(shù)據(jù)科學(xué)經(jīng)理Matt Wood解釋到,在當(dāng)現(xiàn)存Storm用戶想繼續(xù)使用它來(lái)處理數(shù)據(jù)時(shí),Kinesis可以實(shí)現(xiàn)自動(dòng)連接。
對(duì)Kinesis來(lái)說(shuō)SDK是一項(xiàng)關(guān)鍵,因?yàn)檫@項(xiàng)服務(wù)的設(shè)計(jì)宗旨就是“降低建立響應(yīng)式應(yīng)用程序的門(mén)檻”,AWS在一次采訪中說(shuō)到。早期訪問(wèn)用戶,包括移動(dòng)游戲開(kāi)發(fā)商Supercell,正在使用Kinesis對(duì)游戲服務(wù)器和市場(chǎng)平臺(tái)Bizo中的數(shù)據(jù)流進(jìn)行處理,然后供給實(shí)時(shí)監(jiān)控面板。 Wood說(shuō)Bizo有一個(gè)異常小的研發(fā)團(tuán)隊(duì),能有機(jī)會(huì)省卻管理數(shù)據(jù)管道的工時(shí),從而轉(zhuǎn)移到更具價(jià)值的任務(wù)上,這得感謝AWS。
當(dāng)Amazon首次公開(kāi)Knesis這個(gè)產(chǎn)品時(shí),我們就會(huì)發(fā)現(xiàn),AWS的云服務(wù)無(wú)可比擬,這里我們不妨計(jì)算一下其他云供應(yīng)商提供自己流處理服務(wù)的時(shí)間。當(dāng)下企業(yè)的計(jì)算基礎(chǔ)設(shè)施一般都包括一個(gè)完整的數(shù)據(jù)管道,用以收集和處理數(shù)據(jù),因此如果其他云服務(wù)供應(yīng)商想遏制用于瘋狂涌向AWS,那么他們不可以只有一個(gè)Hadoop。