幾十年前,當(dāng)Oracle、SQL等數(shù)據(jù)庫技術(shù)風(fēng)靡全世界的時候,廣大的IT人士可能不會想到在幾十年后的今天,一堆堆毫無計劃性、毫無關(guān)聯(lián)的社交網(wǎng)絡(luò)訪問記錄、圖片,或者音視頻會成為用戶手心里的“寶貝”,這些數(shù)據(jù)在當(dāng)今可能會成為一個生意人致勝的法寶。而對于十幾年前,甚至幾年前開始建設(shè)數(shù)據(jù)中心的管理人員來說,也不會預(yù)料到后端的存儲空間會被大量的非結(jié)構(gòu)化數(shù)據(jù)填滿??
非結(jié)構(gòu)化數(shù)據(jù)時代來臨
是的,大數(shù)據(jù)時代來了,而且來勢洶洶。大數(shù)據(jù)并不是一項技術(shù),而是由于不斷增長的數(shù)據(jù)量和數(shù)據(jù)種類而逐漸衍生出來的一種現(xiàn)象。搜索一下大數(shù)據(jù)的定義也可以發(fā)現(xiàn),各家廠商都在基于自身的理解去定義大數(shù)據(jù)。以NetApp為例,其大中華區(qū)系統(tǒng)技術(shù)及專業(yè)服務(wù)部總監(jiān)何英華表示,NetApp認(rèn)為大數(shù)據(jù)應(yīng)該包含三大要素,分別是:大分析,幫助用戶獲得價值;高帶寬,讓數(shù)據(jù)處理速度更快;大內(nèi)容,指的是不丟失任何信息并實(shí)現(xiàn)高擴(kuò)展性。而Teradata天睿公司大中華區(qū)產(chǎn)品技術(shù)及銷售支持副總經(jīng)理張錦滄則從四個維度解釋了大數(shù)據(jù)的概念——三個V和一個C.三個V分別指的是數(shù)據(jù)量大、數(shù)據(jù)種類多和數(shù)據(jù)增長速度快。一個C指的是處理、升級或利用大數(shù)據(jù)的分析手段比處理結(jié)構(gòu)化數(shù)據(jù)要復(fù)雜的多。
雖然每個廠商對于大數(shù)據(jù)的理解都不同,但其中一個共通點(diǎn)就是大數(shù)據(jù)包含了大量的非結(jié)構(gòu)化數(shù)據(jù),包含了諸如圖片、音視頻、郵件、社交網(wǎng)絡(luò)數(shù)據(jù)等等與傳統(tǒng)關(guān)系型數(shù)據(jù)完全不同的數(shù)據(jù)類型。
ESG中國區(qū)總經(jīng)理王叢認(rèn)為,大數(shù)據(jù)與增長量有關(guān),但是不代表增長快的就是大數(shù)據(jù)。從存儲角度來看,數(shù)據(jù)量的增長是一種挑戰(zhàn),如何將這些增速飛快的數(shù)據(jù)進(jìn)行存儲并合理規(guī)劃存儲空間,是亟須解決的問題。而從數(shù)據(jù)分析角度來看,大量的非結(jié)構(gòu)化數(shù)據(jù)的增長在為用戶帶來挑戰(zhàn)的同時,也帶來了很多機(jī)遇。對于以交易型數(shù)據(jù)為主的行業(yè),例如金融、零售業(yè)等,對數(shù)據(jù)進(jìn)行分析,提煉出具有商業(yè)價值的信息將是此類用戶面臨的大數(shù)據(jù)挑戰(zhàn)。而對于像廣電IPTV、網(wǎng)游、社交網(wǎng)絡(luò)等需要存儲大量的音視頻、圖片、社交網(wǎng)絡(luò)數(shù)據(jù)等等非結(jié)構(gòu)化數(shù)據(jù)的用戶來說,后端存儲如何應(yīng)對飛速增長的龐大數(shù)據(jù)量,是他們面臨的大數(shù)據(jù)挑戰(zhàn)。王叢表示不同種類的行業(yè),面臨的大數(shù)據(jù)挑戰(zhàn)也不可等同視之。
存儲領(lǐng)域的“大數(shù)據(jù)”效應(yīng)
在大數(shù)據(jù)時代,非結(jié)構(gòu)化數(shù)據(jù)量的增長是用戶必須要面對的難題之一。近幾年,針對非結(jié)構(gòu)化數(shù)據(jù)的存儲系統(tǒng)也在不斷地出現(xiàn)。例如統(tǒng)一存儲、集群存儲等,都將海量的非結(jié)構(gòu)化數(shù)據(jù)的存儲作為目標(biāo)。這些存儲產(chǎn)品在大數(shù)據(jù)時代中能否合乎需求呢?
首先,統(tǒng)一存儲產(chǎn)品集中了SAN和NAS存儲兩種功能,分別面向關(guān)系型數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。國內(nèi)市場中,相比于NAS來說,SAN的發(fā)展速度和用戶采用率一直都占據(jù)優(yōu)勢。但隨著最近兩年非結(jié)構(gòu)化數(shù)據(jù)量的攀升,存取文件系統(tǒng)更加有利的NAS系統(tǒng)逐漸受到重視。可以看出,最近的兩年中,主流的存儲廠商EMC、NetApp、IBM、HP、Dell都將統(tǒng)一存儲作為了自己的推廣重點(diǎn)。
針對統(tǒng)一存儲,王叢表示,它也存在著一定的瓶頸。比如,在某個時段,非結(jié)構(gòu)化數(shù)據(jù)猛增,此時,非結(jié)構(gòu)化數(shù)據(jù)的存取會占據(jù)大部分的帶寬,而結(jié)構(gòu)化數(shù)據(jù)就無法享受到應(yīng)有的帶寬。在數(shù)據(jù)中心用戶中,以數(shù)據(jù)庫為主要內(nèi)容的結(jié)構(gòu)化數(shù)據(jù)往往又有很高的業(yè)務(wù)重要性。因此,王叢表示,對于大數(shù)據(jù)時代所要面臨的海量非結(jié)構(gòu)化數(shù)據(jù)而言,統(tǒng)一存儲可能會存在瓶頸。
在Gartner首席分析師張瑾看來,大數(shù)據(jù)對于存儲領(lǐng)域帶來的最重要的影響就是從Scale-up向Scale-out的轉(zhuǎn)變。傳統(tǒng)的存儲一般都是采用雙控制器或者多控制器存儲,當(dāng)容量和性能進(jìn)行擴(kuò)展的時候,往往只能從后端增加磁盤數(shù)量,當(dāng)磁盤數(shù)量增加到一定程度時,前端的控制器卻無法隨之?dāng)U展,這種架構(gòu)必定會形成性能瓶頸。但何英華也提出了不同的觀點(diǎn),他說,對于用戶而言,Scale-up和Scale-out兩種架構(gòu)也并不是完全沖突的,有時兩者也有互補(bǔ)的時候,用戶須根據(jù)自身的應(yīng)用類型,才可以判斷需要哪種架構(gòu)的存儲產(chǎn)品。
眾所周知,SAN系統(tǒng)具有很高的性能,但由于數(shù)據(jù)塊和網(wǎng)絡(luò)需求的增長,SAN系統(tǒng)的擴(kuò)容問題也逐漸凸顯。NAS是公認(rèn)的解決文件數(shù)據(jù)的最佳方案,但是NAS頭的瓶頸問題卻也無法滿足大數(shù)據(jù)的需求。用王叢的話說,存儲容量和控制器的處理能力不成線性增長,必然會導(dǎo)致性能瓶頸。王叢表示,在大數(shù)據(jù)時代之下,集群存儲的市場空間將會擴(kuò)大。
在談及集群存儲和傳統(tǒng)存儲區(qū)別的時候,業(yè)內(nèi)人士通常會使用一個形象的例子去描述。傳統(tǒng)的存儲相當(dāng)于舊的火車,在一個火車頭的牽引下,若想提升存儲容量,只能采取不斷增加車廂數(shù)量,但是火車頭的牽引能力也是有限的。而集群存儲就類似于動車組,在增加容量的同時,性能也不會削減。通過將數(shù)據(jù)分布到集群中各個節(jié)點(diǎn)的方式,集群中的所有存儲資源可以整合為前端的應(yīng)用服務(wù)器進(jìn)行服務(wù),大大提高了磁盤的利用率。
目前,存儲廠商在這方面的動作也顯示了集群存儲日漸受重視。例如,2010年,EMC通過收購Isilon公司,彌補(bǔ)了其在NAS產(chǎn)品線方面的空白,并且確定了其在Scale out NAS產(chǎn)品市場的領(lǐng)先地位。同時,戴爾在2010年也通過收購Exanet進(jìn)入到了集群文件系統(tǒng)市場。IBM在同年4月份發(fā)布了新的集群文件系統(tǒng)SONAS.HDS通過收購BlueArc也開始銷售高端NAS產(chǎn)品。國內(nèi)產(chǎn)品像華賽的N8000也是一款集群存儲產(chǎn)品。王叢表示:“集群存儲市場正在逐漸走向成熟,而目前中國市場可以選擇的集群存儲產(chǎn)品還不是很多。對于以非結(jié)構(gòu)化數(shù)據(jù)為主營業(yè)務(wù)的中小型企業(yè)來說,一款可以滿足其基本需求的集群存儲是其迫切之需。”通過硬件存儲廠商的不斷并購也可以發(fā)現(xiàn),他們早已嗅到了大數(shù)據(jù)帶來的無限商機(jī),集群存儲市場潛力巨大。
大數(shù)據(jù)除了可以帶來集群存儲方面的市場機(jī)會之外,何英華也闡述了另一層面的大數(shù)據(jù)影響。他表示,伴隨著非結(jié)構(gòu)化數(shù)據(jù)的增長,用戶所關(guān)心的重點(diǎn)可能會逐漸向數(shù)據(jù)倉庫、數(shù)據(jù)的挖掘、采集等方面傾斜。他說,在底層硬件存儲和用戶的應(yīng)用之間,增加了另外一個操作系統(tǒng)層,該操作系統(tǒng)可以為用戶的應(yīng)用與存儲提供一個無縫的連接。他認(rèn)為,用戶面臨的挑戰(zhàn)未來會傾向于在軟件層面解決,底層的硬件存儲需要對這些軟件應(yīng)用進(jìn)行良好的支持。因此,NetApp也將重點(diǎn)放在了其Data ONTAP操作系統(tǒng)之上。何英華表示,Data ONTAP提供了豐富的API供用戶自己開發(fā)并適應(yīng)自身環(huán)境的產(chǎn)品,以便更好地管理其應(yīng)用和存儲產(chǎn)品。
數(shù)據(jù)分析的機(jī)遇
同時,一些傳統(tǒng)存儲廠商也不再滿足于自己在存儲方面的市場空間,紛紛開始向數(shù)據(jù)分析發(fā)力。他們在通過不斷的并購或者合作,在向數(shù)據(jù)分析領(lǐng)域擴(kuò)展自己的觸角。例如EMC在2010年通過收購Greenplum,正式進(jìn)入了數(shù)據(jù)倉庫市場。并且在2011年推出了支持大數(shù)據(jù)分析的下一代平臺——EMC Greenplum統(tǒng)一分析平臺。在同一年,IBM收購了數(shù)據(jù)分析公司Netezza,開始拓展商業(yè)價值方面的市場。而在戴爾企業(yè)戰(zhàn)略營銷副總裁Praveen Asthana來中國時,針對數(shù)據(jù)分析,他舉了一個很生動的例子。在加州有一個棒球隊,他們沒有錢去雇傭一些頂級球員。但他們卻花了較少的錢請了一位數(shù)學(xué)家,該數(shù)學(xué)家通過對很多球員和球隊的分析,得出了一些結(jié)論,這些結(jié)論主要是通過分析他們是靠什么因素獲取勝利的。而通過這個結(jié)論,該球隊找到了一些不是很出名的但是卻有其獨(dú)特優(yōu)勢的球員,靠者他們獲得了很多獎項,并贏得了世界杯。Praveen Asthana表示,這就是數(shù)據(jù)分析的價值所在。
與此同時,這些傳統(tǒng)的存儲廠商也紛紛開始在Hadoop方面下功夫。從最近的新聞也可以看出Hadoop的確“集萬千寵愛于一身”。在收購了Greenplum之后,EMC推出了一款基于Hadoop的專用數(shù)據(jù)協(xié)同處理設(shè)備——Greenplum HD數(shù)據(jù)計算設(shè)備,可以一個單一、無縫的解決方案去實(shí)現(xiàn)對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的協(xié)同處理。IBM在2011年也推出了基于Hadoop的InfoSphere BigInsights分析軟件,為大數(shù)據(jù)做準(zhǔn)備。NetApp通過與Hadoop的“鼻祖”Cloudera公司合作,發(fā)布了其Open Solution for Hadoop解決方案,幫助用戶深入了解不斷增長的數(shù)據(jù)。同樣在2011年,戴爾也與Cloudera進(jìn)行合作,加入了Hadoop陣營。有人形容現(xiàn)在的Hadoop就像當(dāng)年的Linux.也有人預(yù)測,未來的Hadoop會取得像Linux一樣的成就。
王叢表示,Hadoop之所以會迅速占據(jù)技術(shù)熱門,是因?yàn)樗芎玫亟鉀Q了目前數(shù)據(jù)的“無計劃性”。與以往的結(jié)構(gòu)化數(shù)據(jù)不同,現(xiàn)在用戶面臨的數(shù)據(jù)種類、數(shù)據(jù)量,以及數(shù)據(jù)之間的關(guān)系都是毫無計劃和規(guī)律的,這對于傳統(tǒng)的數(shù)據(jù)庫來說,處理此類數(shù)據(jù)簡直不可能。而Hadoop的出現(xiàn),解決了此類問題。在這里,就不贅述Hadoop的技術(shù)原理了。
作為一款出色的開源架構(gòu),確實(shí)給廠商帶來了很多便利性。但是,開源也就意味著很多方面還不很成熟,需要不斷完善。所以,王叢也表示,以目前Hadoop的發(fā)展?fàn)顩r,只有那些具有充足的開發(fā)資源,并且有著豐富的Hadoop經(jīng)驗(yàn)的用戶才能夠開發(fā)出成熟的可用的平臺。
面對大數(shù)據(jù)的洶涌來襲,數(shù)據(jù)中心用戶必然會面臨更多的新技術(shù)抉擇。緊跟技術(shù)的潮流,選擇適合自己的大數(shù)據(jù)工具,才能在大數(shù)據(jù)的潮流中挖掘出更多的商業(yè)價值。
除了看到存儲廠商在大數(shù)據(jù)領(lǐng)域的動作以外,還可以發(fā)現(xiàn)數(shù)據(jù)倉庫廠商也扛起了大數(shù)據(jù)的旗幟。張錦滄表示,在大數(shù)據(jù)時代,分析工具能否快速收集和分析變化飛快的數(shù)據(jù),并且如何去有效地使用它們是一個挑戰(zhàn)。而Teradata天睿公司在傳統(tǒng)數(shù)據(jù)倉庫方面積累經(jīng)驗(yàn)的同時,也通過收購Aster Data公司向大數(shù)據(jù)邁進(jìn)了一步。
集群存儲
集群存儲一般由多個存儲節(jié)點(diǎn)組成,每個節(jié)點(diǎn)都包含了前端端口、控制器和后端的磁盤,他們組成了一個存儲單元。而在大數(shù)據(jù)到來需要擴(kuò)展容量或性能時,會以節(jié)點(diǎn)為單位進(jìn)行擴(kuò)展。對于大數(shù)據(jù)時代之下,數(shù)據(jù)增長趨勢難以預(yù)測的用戶來說,集群存儲可以實(shí)現(xiàn)像搭積木一樣的簡易擴(kuò)展性,同時也不會影響現(xiàn)有存儲的使用。
集群存儲的靈魂是其分布式操作系統(tǒng),所有對集群存儲的操作都經(jīng)由分布式操作系統(tǒng)統(tǒng)一調(diào)度和分發(fā),分散到每個存儲節(jié)點(diǎn)上完成,可以大幅提升性能。這種結(jié)構(gòu)與傳統(tǒng)的NAS或者SAN完全不同。集群存儲可以實(shí)現(xiàn)容量和性能的線性提升,不會遭遇到控制器的處理瓶頸。