云服務(wù)已經(jīng)成為企業(yè)加快數(shù)字化活動的重要地點,以下便是評估HaaS提供商需要考慮的事項:
Haadoop是一個基于開放源代碼的軟件框架,能夠跨分布式集群高吞吐量處理大數(shù)據(jù)量。
利基市場幾年前就開始進入主流市場。隨著數(shù)字化運動的快速擴展,Hadoop提供了充足的使用案例,允許使用普通商品硬件進行大數(shù)據(jù)處理。
從單一服務(wù)器到多個服務(wù)器群也是高度可擴展的,每個集群都能夠自我運行計算和存儲。Hadoop在應(yīng)用程序?qū)泳湍芴峁└呖煽啃?,因此集群硬件是現(xiàn)成的,能夠使得節(jié)點輕松互換,節(jié)約成本。
云化趨勢
盡管早期采用者通常能夠使用內(nèi)部部署,利用多個Apache發(fā)行版中的一個進行設(shè)置,無可否認的是,企業(yè)正在越來越多的利用云服務(wù)。相比之下,自己DIY的方法便是乏味和耗時的。
由于市場需大于供,擁有資深Hadoop經(jīng)驗的技術(shù)嫻熟的工程師便是非常罕見且昂貴的。購買硬件是一回事,但是在嘗試錯誤的猜想中構(gòu)建分析平臺也是一段漫長而昂貴的過程。
由于數(shù)字化時代的上市時間分秒必爭,因此越來越多的公司正在利用Hadoop即服務(wù)(HaaS)產(chǎn)品,這些產(chǎn)品正在迅速出現(xiàn),并且享有較高的采用率。
從用戶角度將云作為首選目標看待時間有意義的事情,由于規(guī)模經(jīng)濟化,單位成本變得更加低廉,企業(yè)獲得高效率的同時減少了成本支出,并且獲得了更大的靈活性。
除了商業(yè)利益之外,云最重要的是開辟了一系列全新的數(shù)字用例,特別是在物聯(lián)網(wǎng)和其他需要實時數(shù)據(jù)處理的場景中。其中,AWS的Elastic Map Reduce(EMR)便是這個領(lǐng)域的開拓性產(chǎn)品之一。
雖然,基本上所有的大型服務(wù)提供商都在他們的產(chǎn)品組合中增加了一個基于云的Hadoop托管服務(wù),但是發(fā)行商本身卻在努力“框化”他們的框架,而Cloudera的Altus就是最近的例子之一。Altus允許用戶使用MapReduce上的Hive或者Spark上的Spark按需運行數(shù)據(jù)處理作業(yè)。Cloudera already基本上宣布他們打算將服務(wù)擴展到其他領(lǐng)先的公有云(例如微軟Azure),而其他供應(yīng)商可能會遵循這項規(guī)則。
市場發(fā)展
在強大的云需求面前,越來越多的企業(yè)開始接納Hadoop即服務(wù)。HaaS本質(zhì)上是PaaS服務(wù)的一項子集,包括虛擬存儲和計算資源,以及基于Hadoop的處理和分析框架。服務(wù)提供商通常運行多租戶HaaS環(huán)境,允許在共享基礎(chǔ)設(shè)施上托管多個客戶。
聯(lián)合市場研究公司(Allied market Reserch)研究發(fā)現(xiàn),隨著各組織越來越多采用“Cloud First”的戰(zhàn)略模式,預(yù)計到2020年哈斯商學(xué)院將獲得169億美元的收入。從2014年到2020年,該公司的年度復(fù)合增長了(CAGR)將達到70.8%。從收入角度來看,北美仍然位居首位,其次便是歐洲和亞太地區(qū)。
哈斯商學(xué)院的爆發(fā)預(yù)計將會在2020年使其在Hadoop市場上的增長相形見絀。根據(jù)IDC的研究,公共云部署已經(jīng)占到全球商業(yè)分析軟件市場的12%,預(yù)計到2020年將達到25%的CAGR。除了大型企業(yè),中小型企業(yè)也越來越多地選擇HaaS,以獲得可操作的見解,并創(chuàng)建以數(shù)據(jù)為中心的業(yè)務(wù)模型。
哈斯商學(xué)院預(yù)計會在2020中集中爆發(fā),而此時Hadoop市場將會出現(xiàn)狀況。根據(jù)IDC的研究表明,公有云部署已經(jīng)達到商業(yè)分析軟件市場的12%。預(yù)計到2020年將會達到25%的CAGR.
考慮HaaS時需要考慮的事情
雖然利用HaaS無疑有大量的用例,但也有一些缺點。將數(shù)據(jù)載入云中可能會產(chǎn)生延遲并需要額外的帶寬。雖然高度標準化的HaaS環(huán)境只需要點擊幾下便可以方便部署,但涉及權(quán)限將有服務(wù)提供商自行決定。此外,云中的數(shù)據(jù)將會展現(xiàn)重力并導(dǎo)致鎖定效應(yīng)。以下便是評估HaaS提供商時需要考慮的一些示例:
1. 彈性
Hadoop支持針對各種工作負載的彈性集群,在考慮基于云的部署的時候?qū)又匾?。什么是可用的計算和存儲選項來支持不同的用例?例如,哪些額外的計算刀片可用于高I/O工作負載?環(huán)境的可擴展性如何,以及額外資源(計算,存儲)的調(diào)試容易度如何?
2. HDFS的持續(xù)使用
雖然不需要HDFS作為持久的數(shù)據(jù)存儲,但使用HDFS的時候發(fā)現(xiàn)了明顯的優(yōu)化。HDFS使用商品直接附加存儲(DAS)并共享底層基礎(chǔ)設(shè)施的成本。此外,HDFS無縫的支持YARN和MapReduce,使其能夠本地處理查詢并充當數(shù)據(jù)倉庫。
3. 開票
服務(wù)提供商的底層價格指標是什么(按照訂單,消費等計費)?如果能力未能得到充分使用,服務(wù)如何能夠靈活退役?最重要的是,要記住數(shù)據(jù)湖的快速擴張,價格將如何隨著時間而快速擴大規(guī)模?
4. 高可用性
實現(xiàn)“零中斷”是一個微妙但是非常重要的問題。什么是提供商的SLA和故障轉(zhuǎn)移概念,冗余是如何完成的?例如,供應(yīng)商能夠在不中斷整個作業(yè)的情況下隔離和重新啟動一臺機器(又稱“不間斷操作”)?
5. 互通性
由于隨著時間的推移使用案例將會變得越來越復(fù)雜,整合可能已經(jīng)使用或計劃使用的其他服務(wù)是多么容易?支持哪些數(shù)據(jù)流和API,以及他們記錄的程度如何?
6. 需要人才
雖然建立HaaS環(huán)境所需的人力比DIY方法要少的多,但Hadoop并不是完全開箱急用,只需點擊幾下,節(jié)點就會運行,但這是實際工作開始的時間。定制仍然需要時間和精力。