當云計算遇上大數(shù)據(jù),如何在虛擬環(huán)境中獲取大數(shù)據(jù)的價值,是企業(yè)必須面對的問題。VMware給出了他們的答案:在統(tǒng)一的vSphere云架構(gòu)之上,提供GemFire實時處理、GreenPlum交互處理及Hadoop批處理三種模式,滿足用戶的海量、快速及靈活的大數(shù)據(jù)處理需求,并為開發(fā)者、數(shù)據(jù)分析師、數(shù)據(jù)科學家和商務用戶提供數(shù)據(jù)分析及可視化的數(shù)據(jù)展示。
與IBM、EMC、富士通、Intel等先后推出Hadoop發(fā)行版不同,Vmware更專注于基礎(chǔ)架構(gòu)層面。在一場2000余人到場的VMware & EMC大數(shù)據(jù)云高峰論壇上,VMware公司大中華區(qū)總裁宋家瑜表示,云的平臺才是唯一能解決爆炸性大數(shù)據(jù)使用的需求,把關(guān)鍵應用移到云平臺已經(jīng)是一個必然趨勢。
Vmware之道:從vHadoop到GemFire
在介紹數(shù)據(jù)管理技術(shù)《從數(shù)據(jù)庫到數(shù)據(jù)云 虛擬化與開源搭橋》五大趨勢之后,VMware全球高級副總裁范承工表示,傳統(tǒng)數(shù)據(jù)庫技術(shù)hold不住一些這樣的應用:海量數(shù)據(jù)的需求,實時數(shù)據(jù)的需求,和靈活數(shù)據(jù)的需求。Vmware和EMC一道,致力于在vsphere云平臺之上提供面向這些應用的整體解決方案。
Hadoop由于其低成本和高擴展性的優(yōu)勢,成為各大廠商處理海量數(shù)據(jù)的法寶,但虛擬基礎(chǔ)架構(gòu)云上的Hadoop,存在可靠性問題。根據(jù)阿帕奇Virtual Hadoop wiki文檔給出的結(jié)論,可以將Hadoop帶到云基礎(chǔ)架構(gòu)上,但物理和虛擬基礎(chǔ)設(shè)施之間的差異可能危及數(shù)據(jù)完整性和安全性。
現(xiàn)在,VMware開源項目Serengeti試圖改變這個問題。該項目將允許企業(yè)在云端和虛擬環(huán)境中,在 vSphere 上部署和管理Hadoop。
范承工介紹,Serengeti將Hadoop在虛擬基礎(chǔ)架構(gòu)的部署時間從很多天縮短到10分鐘,同時還能夠提高硬件的利用率,能夠滿足多租戶的需求,有更好的安全隔離,也有更好的伸縮性。Vmware還介紹,通過 vSphere,Hadoop應用如果節(jié)點失敗能夠自動重啟。
[page]
VMware試圖在統(tǒng)一的vSphere云架構(gòu)之上,提供GemFire實時處理、GreenPlum交互處理及Hadoop批處理三種模式,滿足用戶的海量、快速及靈活的大數(shù)據(jù)處理需求,并為開發(fā)者、數(shù)據(jù)分析師、數(shù)據(jù)科學家和商務用戶提供數(shù)據(jù)分析及可視化的數(shù)據(jù)展示。
Vmware還做了一個UAP(Universal Analytics Platform)的大數(shù)據(jù)分析平臺,其中包括Greenplum database、Hadoop和Chorus分享軟件,這個平臺可以幫助客戶同時分析處理結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。
通過Chorus系統(tǒng),數(shù)據(jù)科學家可以自助的建立圖形工作區(qū),搜索和獲取這些企業(yè)當中的數(shù)據(jù)。接下來建立數(shù)據(jù)分析沙箱,也不會影響別人,當他有新的發(fā)現(xiàn)之后,又可以把他的發(fā)現(xiàn)貢獻給其他的數(shù)據(jù)科學家進行不斷的改進。
云端大數(shù)據(jù)分析工具Cetas,該產(chǎn)品來源于Vmware收購的一家提供在Hadoop平臺之上的分析服務的公司,提供實時分析的能力,可以對市場的變化做出快速反應。Cetas通過公共云提供服務,易于部署,內(nèi)建高效的分析算法,且簡單易用,非常容易的能夠把數(shù)據(jù)上傳到云里面,可以提供一個可視性的圖表,對數(shù)據(jù)進行很好的展示。這也意味著,無需專業(yè)的數(shù)據(jù)科學家和統(tǒng)計科學家就可以進行商業(yè)分析。
在滿足快速需求上,Vmware有GemFire和SQLFire,他們都是內(nèi)存為主導的數(shù)據(jù)庫形式,可以實時地對數(shù)據(jù)的反應。在靈活上,Vmware提供了Object的GemFire的方式,為關(guān)系型數(shù)據(jù)庫提供選擇。
身兼兩職的GemFire,其實并非傳統(tǒng)的內(nèi)存數(shù)據(jù)庫,而是橫向擴展的分散式的數(shù)據(jù)庫,可以和現(xiàn)有的數(shù)據(jù)庫共存,把它的優(yōu)點發(fā)揮出來。它有很多平行的算法,可以應對OLTP,OLAP數(shù)據(jù)分析等等。
由此看來,Vmware通過并購與研發(fā),提供了包括虛擬服務器層、應用平臺層、以及應用之上的數(shù)據(jù)層的技術(shù)。同時,這幾種技術(shù)也可以一起使用,以滿足用戶所有的應用需求。因此,說整體的大數(shù)據(jù)解決方案是恰如其分。
值得一提的是,Hadoop、GreenPlum和GemFire等大數(shù)據(jù)產(chǎn)品線,都是Vmware和EMC兩岸三地幾百個工程師的研發(fā)成果。這也意味著,這些大數(shù)據(jù)解決方案非常適合中國的企業(yè)應用。