擁抱開源 DevOps引領(lǐng)大數(shù)據(jù)生態(tài)系統(tǒng)

責(zé)任編輯:editor007

作者:Jack Vaughan

2017-03-29 14:22:03

摘自:TechTarget中國

許多早期采用者不得不創(chuàng)建基于MapReduce的Hadoop應(yīng)用程序,只能使用Spark處理引擎重新啟動(dòng)它們。

為了開展開源戰(zhàn)略,基于大數(shù)據(jù)生態(tài)系統(tǒng)組件的應(yīng)用程序必須加強(qiáng),才能在生產(chǎn)中運(yùn)行。 DevOps可能是其中的重要組成部分。

用戶一直希望減少對(duì)供應(yīng)商的依賴。但是,當(dāng)他們了解當(dāng)今大數(shù)據(jù)生態(tài)系統(tǒng)的復(fù)雜環(huán)境時(shí),他們至少在某種程度上將承擔(dān)一定的責(zé)任。

新風(fēng)格的數(shù)據(jù)工程要求對(duì)DevOps進(jìn)行整體的調(diào)整,這就是敏捷性方法的擴(kuò)展,需要開發(fā)人員對(duì)創(chuàng)新應(yīng)用在生產(chǎn)中的表現(xiàn)承擔(dān)更多的責(zé)任。同時(shí),工程師需要以更快的速度學(xué)習(xí)新的軟件。

許多早期采用者不得不創(chuàng)建基于MapReduce的Hadoop應(yīng)用程序,只能使用Spark處理引擎重新啟動(dòng)它們。

如今有各種開源產(chǎn)品用于分析,包括Hadoop SQL查詢工具、機(jī)器學(xué)習(xí)和其他功能。開源數(shù)據(jù)流媒體空間就有一些例子,隨著一系列新的實(shí)時(shí)系統(tǒng)不斷進(jìn)行批處理,這些數(shù)據(jù)流空間正在不斷發(fā)展。

在流媒體中,分析工具層出不窮。先是早期的競爭者Apache Storm,接著又出現(xiàn)Apache Spark和Apache Flink,而且這一切都發(fā)生在短短的幾年之內(nèi)。

Hadoop聯(lián)合創(chuàng)始人、Cloudera首席架構(gòu)師Doug Cutting表示,這是現(xiàn)代數(shù)據(jù)工程的本質(zhì),今天人們必須做好試用軟件組件的準(zhǔn)備。

事實(shí)上,很難找到與多個(gè)流媒體架構(gòu)合作的商店,而且其中涉及到很多在職學(xué)習(xí)。隨著Spark通過最近宣布的Drizzle插件在時(shí)間流式中添加記錄,就需要更多的學(xué)習(xí)。

數(shù)據(jù)工程師正在研究組件如何以不同的組合形式工作,這個(gè)過程是從概念驗(yàn)證轉(zhuǎn)向生產(chǎn)的重要環(huán)節(jié)。最終用戶和供應(yīng)商都屬于這個(gè)環(huán)節(jié)的一部分。

搞清楚你想要什么

回想一下:當(dāng)供應(yīng)商們作為唯一創(chuàng)新來源的日子里,用戶往往處于被動(dòng)地位。供應(yīng)商仍然可能在大數(shù)據(jù)應(yīng)用實(shí)施方面發(fā)揮很大的作用,但被動(dòng)的用戶就要承受更大的風(fēng)險(xiǎn)。

事實(shí)上,產(chǎn)品發(fā)布時(shí)間中至少有一些滯后時(shí)間與準(zhǔn)備軟件的供應(yīng)商有關(guān)。開源大數(shù)據(jù)應(yīng)用程序從概念驗(yàn)證到生產(chǎn)投入的艱難過程并非巧合。

但是,隨著數(shù)據(jù)商店開始對(duì)新的開源應(yīng)用程序進(jìn)行變革,需要大量的創(chuàng)新。

為了繼續(xù)推進(jìn)大數(shù)據(jù)工程,團(tuán)隊(duì)需要非常認(rèn)真地追求DevOps的信條,或者稱之為DataOps,尤其是要求數(shù)據(jù)工程師和IT架構(gòu)師負(fù)責(zé)將創(chuàng)新思想運(yùn)用到生產(chǎn)過程中。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)