近年來,由于NoSQL數(shù)據(jù)庫(kù)出現(xiàn)并用于處理大規(guī)模數(shù)據(jù)擴(kuò)展,在線事務(wù)處理技術(shù)不斷變化。同時(shí),隨著Hadoop和Spark的出現(xiàn),經(jīng)典分析模式被逐漸打破。
如今,應(yīng)用程序來利用這些技術(shù)在大規(guī)模事務(wù)系統(tǒng)上創(chuàng)建接近實(shí)時(shí)的分析。尤其是接入NoSQL系統(tǒng)的Spark連接器正變得越來越普遍。
“就是我們正在用操作系統(tǒng)和分析系統(tǒng)改變我們正在做的事情,”分析師Mike Ferguson在上周Dataversity舉辦的一個(gè)討論會(huì)上說。 Ferguson是位于一位英國(guó)的經(jīng)營(yíng)智能商業(yè)策略的總經(jīng)理,他分享了將Spark與來自Basho Technologies的關(guān)鍵值Riak NoSQL數(shù)據(jù)存儲(chǔ)相連,通過這種方法來對(duì)Web和移動(dòng)數(shù)據(jù)的分析進(jìn)行加速。
和Aerospike,Couchbase,DataStax,Redis Labs以及其他競(jìng)爭(zhēng)對(duì)手一樣,Basho也因此目的而涉足Spark連接器。
操作分析
Ferguson說把NoSQL和Hadoop以及Spark進(jìn)行結(jié)合為他所謂的“操作分析”奠定了基礎(chǔ),相比起過去的分析系統(tǒng),該系統(tǒng)不需要整夜都進(jìn)行批處理任務(wù)。 多年來,關(guān)系型數(shù)據(jù)庫(kù)都處于操作和分析系統(tǒng)之間循環(huán)的末端。但是隨著Web和移動(dòng)應(yīng)用程序開始需要可擴(kuò)展性(這種特性是通過運(yùn)行分布式計(jì)算機(jī)集群獲得的),情況就開始改變了。對(duì)于數(shù)據(jù)處理來說,頁面是一回事,而移動(dòng)又是另一回事。 通過移動(dòng)接入事務(wù)系統(tǒng),并發(fā)用戶量激增到了前所未有的水平。
這使得團(tuán)隊(duì)要去嘗試新的架構(gòu),而Spark則已經(jīng)成為一個(gè)有力的競(jìng)爭(zhēng)者。 Ferguson指出Spark和其他產(chǎn)品一樣雖然通常是運(yùn)行在Hadoop上,但是并不局限于Hadoop存儲(chǔ)。它還可以訪問關(guān)系型數(shù)據(jù)存儲(chǔ)以及NoSQL數(shù)據(jù)存儲(chǔ)。
這反過來就會(huì)支持應(yīng)用Spark進(jìn)行一系列的分析,“其中有些是操作分析,”他說。 就像Ferguson所形容的,操作分析試圖利用分析來避免某些事件和優(yōu)化流程。這可以讓應(yīng)用程序降低風(fēng)險(xiǎn),改善客戶交互并減少計(jì)劃外運(yùn)營(yíng)成本。
A/B測(cè)試
用例 Intuit是一家網(wǎng)絡(luò)財(cái)務(wù)和稅務(wù)籌劃服務(wù)提供商,NoSQL數(shù)據(jù)庫(kù)與Spark分析引擎協(xié)作的一個(gè)案例就是出自這家公司。
Rekha Joshi是加州的一位軟件工程師,她說,對(duì)于那些存儲(chǔ)在DataStax Cassandra數(shù)據(jù)庫(kù)(運(yùn)行在Amazon Web Services云端)中的數(shù)據(jù),Spark已經(jīng)完成了分析。 她所描述的一個(gè)用例集中在訪問者與Intuit網(wǎng)站首選交互方式的A/B測(cè)試上。其目標(biāo)就是要更好地理解訪問者的喜好并對(duì)個(gè)性化他們的頁面視圖和網(wǎng)站交互進(jìn)行自動(dòng)響應(yīng)。 數(shù)以百萬的網(wǎng)站用戶生成了大量數(shù)據(jù), Cassandra NoSQL有能力應(yīng)對(duì)這樣的變化。但Rekha Joshi說:“這并不是Cassandra真正的用武之地。Spark和Hadoop才是為此而生的。”
Intuit員工曾使用Spark和Hadoop。它們有著各自的性能優(yōu)勢(shì)和局限性,該工作對(duì)Spark有近乎實(shí)時(shí)的性能要求。Hadoop是一個(gè)批處理系統(tǒng),而Spark則是實(shí)時(shí)的或是接近實(shí)時(shí)的。 Joshi所描述的路徑與Ferguson的操作分析有一定相關(guān)性,但是她選擇另外已有的術(shù)語來描述同時(shí)支持批處理和實(shí)時(shí)分析的架構(gòu),即,λ架構(gòu)。 諸如Ferguson的分析和Joshi的用例給出了數(shù)據(jù)分析架構(gòu)改變的一個(gè)視角。這在存儲(chǔ)方面可能有更豐富的內(nèi)容。
For NoSQL, there is considerable growth to come, according to Allied Market Research, which estimated that a global NoSQL market that barely existed 10 years ago will reach $4.2 billion by 2020. 根據(jù)Allied Market Research的預(yù)測(cè),NoSQL會(huì)有非常迅速的增長(zhǎng)。 10年前幾乎不存在的全球NoSQL市場(chǎng)將會(huì)在2020年達(dá)到42億美元的規(guī)模。 和Ferguson一樣,Allied將Web、移動(dòng)和電子商務(wù)應(yīng)用程序作為NoSQL迅速發(fā)展的驅(qū)動(dòng)力。與諸如Spark這些新的分析引擎進(jìn)行對(duì)接也會(huì)有助于NoSQL的增長(zhǎng),會(huì)擴(kuò)大NoSQL的可用度。