DataStax正式引入一款Cassandra NoSQL數(shù)據(jù)庫(kù)引擎和一款圖形DB,它們將致力于促進(jìn)這些軟件在應(yīng)用程序跨越事務(wù)處理和實(shí)時(shí)分析中的使用。
該公司的新產(chǎn)品采用了DataStax Enterprise(DSE)5.0的形式。它還結(jié)合了一款更新后的Cassandra列家族存儲(chǔ),且該存儲(chǔ)使用了Titan圖形數(shù)據(jù)庫(kù)的開源版本,DataStax將之形容為徹底地重寫。
該版本還增加了選擇性復(fù)制,旨在更好地支持出現(xiàn)在物聯(lián)網(wǎng)和零售應(yīng)用程序中的星型拓?fù)浣Y(jié)構(gòu)。同樣,新型多實(shí)例服務(wù)器自動(dòng)化有益于某些數(shù)據(jù)中心管理員,而比起大型分布式集群,這些管理員更喜歡大型個(gè)人機(jī)。
ProtectWise公司是位于Denver的一家網(wǎng)絡(luò)安全服務(wù)提供商,對(duì)于其聯(lián)合創(chuàng)始人兼CTO Gene Stevens來說,DSE基于Cassandra的軟件是邁向新一代大數(shù)據(jù)安全分析的一步。
Stevens說,ProtectWise正在一個(gè)安全系統(tǒng)上使用DSE和它的Spark連接器,該系統(tǒng)每天可以錄入200億條記錄,而且在高峰期可以每秒處理數(shù)百萬(wàn)條記錄。歷史活動(dòng)跡象先于安全漏洞出現(xiàn),對(duì)此進(jìn)行研究的數(shù)據(jù)科學(xué)家同樣在使用該系統(tǒng)??创髷?shù)據(jù)走向的最佳方式就是去描繪一幅擁有無(wú)限數(shù)據(jù)流的未來圖景。
“我們正在做的是遠(yuǎn)離面向批處理的分析方法,轉(zhuǎn)向一種流處理,面向時(shí)間序列的方法。用Cassandra這樣的產(chǎn)品讓以上轉(zhuǎn)變成為可能,”他說。
在采用計(jì)劃早期迄今為止,DataStax的Cassandra版本已經(jīng)在大量NoSQL數(shù)據(jù)庫(kù)中標(biāo)記了某些獨(dú)特的空間。對(duì)于一個(gè)系統(tǒng)來說,它已經(jīng)演化并結(jié)合了多種元素,包括鍵值存儲(chǔ),文檔取向和列格式的分布式數(shù)據(jù)處理,而且在云中尤為如此,而大容量的高速網(wǎng)絡(luò)應(yīng)用程序已經(jīng)成為這樣系統(tǒng)的最佳契合點(diǎn)。
該公司還是NoSQL的早期參與者,它建立了一個(gè)與Apache Spark分析引擎的連接器。該連接在所有類型的NoSQL數(shù)據(jù)庫(kù)中變得越來越普遍。
雖然遠(yuǎn)離原來的開源Cassandra根基是另外一個(gè)階段,但是將分布式Titan圖形軟件緊密連接至Cassandra存儲(chǔ)能夠進(jìn)一步擴(kuò)大DSE的作用。在Titan-Cassandra應(yīng)用的領(lǐng)域可能會(huì)發(fā)現(xiàn)這樣的應(yīng)用程序,它們包含訪問控制,網(wǎng)絡(luò)分析和風(fēng)險(xiǎn)分析。在這每一個(gè)領(lǐng)域中,實(shí)時(shí)分析應(yīng)用程序都與Cassandra的操作端處理緊密結(jié)合。
Stevens表示,ProtectWise對(duì)DSE的使用尚未擴(kuò)展至圖形數(shù)據(jù)庫(kù),但也為時(shí)不遠(yuǎn)。“圖形DB高度適用于網(wǎng)絡(luò)安全,而且對(duì)于異常檢測(cè)有著大量的需求,”他說。“我們處在一個(gè)早期采用計(jì)劃之中。”
圖形DB開始為人所理解圖形DB已經(jīng)在欺詐檢測(cè)和推薦引擎中找到了用武之地,Nick Heudecker的分析師Gartner說,因?yàn)檫@些情況是公司現(xiàn)在想要非常接近實(shí)時(shí)做出決策的地方。“圖形便是解決該問題的途徑之一,”他說。
奇怪的是,或許比起以關(guān)系命名的關(guān)系型數(shù)據(jù)庫(kù),圖形數(shù)據(jù)庫(kù)通常能夠更容易對(duì)關(guān)系數(shù)據(jù)進(jìn)行快速處理。
“關(guān)系型數(shù)據(jù)庫(kù)要求引用完整性,而圖形數(shù)據(jù)庫(kù)則要求關(guān)系,”Heudecker說。
但是,除了一套基本的用例,對(duì)圖形數(shù)據(jù)庫(kù)而言,道路仍是曲折艱苦的,Heudecker說。
“圖形正變得越來越普遍,但是很多可能的用例才剛剛開始為人所理解,”他說。
在相同平臺(tái)上將圖形模型作為鍵值存儲(chǔ)進(jìn)行處理,或是給一個(gè)關(guān)系型平臺(tái)添加JSON NoSQL文檔支持,兩者都至少會(huì)有一個(gè)共同的結(jié)果。“在一個(gè)單獨(dú)的封裝內(nèi)將數(shù)據(jù)處理不同的模型放在一起可以簡(jiǎn)化管理,”他說。
Titan將何去何從?在去年早些時(shí)候DataStax收購(gòu)了Aurelius LLC,獲得了強(qiáng)大的發(fā)展勢(shì)頭,而DataStax的發(fā)版則是真正的高潮。該公司的領(lǐng)導(dǎo)層那時(shí)正指引著開源Titan圖形數(shù)據(jù)庫(kù)的開發(fā)。
Titan是最早的分布式圖形數(shù)據(jù)庫(kù)之一,它解決了一個(gè)圖形要如何才能在分布式模型上運(yùn)行的問題。而且它還是與文件無(wú)關(guān)的。“但這總是根據(jù)編碼的最小公分母提出問題,”DataStax的工程副總Martin Van Ryswyk如是說。
目前的DSE圖形引擎靈感來自于Titan,但是新的設(shè)計(jì)有了顯著的變化,其中很多是關(guān)于改進(jìn)Titan如何與Cassandra協(xié)同工作的,Van Ryswyk說,“這完全是重寫,靈感來自于Titan,但是它與我們的閉源系統(tǒng)緊密相連。”
對(duì)于圖形數(shù)據(jù)多樣性的開源舉措來說,Van Ryswyk認(rèn)為Gremlin作為一個(gè)區(qū)域,DataStax會(huì)尋求支持。這是一款用于圖形數(shù)據(jù)庫(kù)開發(fā)的語(yǔ)言。“對(duì)于跨越很多系統(tǒng)來說擁有一款通用圖形語(yǔ)言是很有價(jià)值的,對(duì)競(jìng)爭(zhēng)對(duì)手同樣如此,”Van Ryswyk說。
Van Ryswyk認(rèn)為DataStax對(duì)于Cassandra和Tian以及Cassandra和Solr(一款開源搜索平臺(tái))的集成會(huì)緩解用戶的開發(fā)和管理負(fù)擔(dān)。對(duì)于DataStax在ProtectWise的客戶Gene Stevens來說,這是非常重要的附加價(jià)值。
他說,“我們以開源的Cassandra作為開始。但是讓Cassandra和Solr作為單獨(dú)的系統(tǒng),并且保持它們的同步是非常困難的。DSE是和它們緊密結(jié)合的。”他補(bǔ)充說,面對(duì)原生Cassandra時(shí),DataStax的實(shí)現(xiàn)幫助解決了很多低級(jí)集成和編程方面的瑣事。
DataStax押注的是將圖形數(shù)據(jù)庫(kù)與Cassandra緊密結(jié)合會(huì)贏得像Steven這種正在面對(duì)無(wú)限數(shù)據(jù)流處理和分析的客戶。
在匆忙實(shí)現(xiàn)圖形數(shù)據(jù)庫(kù)的過程中,DataStax并不孤單。其他面向圖形數(shù)據(jù)庫(kù)的后期活動(dòng)包括Neo Technology對(duì)Neo4j 3.0的重新設(shè)計(jì),旨在獲得更高的可擴(kuò)展性;TIBCO Software Inc.在社區(qū)評(píng)論版開放其TIBCO Graph Database入口;以及IBM準(zhǔn)備在Bluemix上提供一般可用的圖形數(shù)據(jù)庫(kù)。同樣值得注意的是,圖形數(shù)據(jù)庫(kù)在供應(yīng)商產(chǎn)品中的興起,而這些產(chǎn)品的目標(biāo)是數(shù)據(jù)湖和主數(shù)據(jù)管理。