大數(shù)據(jù)存儲,可以認(rèn)為是存儲廠商基于現(xiàn)有大數(shù)據(jù)應(yīng)用的特點(diǎn)進(jìn)行優(yōu)化的解決方案。
不久前去香港出差,剛下飛機(jī)就收到招商銀行發(fā)來的一條短信,內(nèi)容是告之香港有哪些商場在舉辦促銷活動。不知道這是巧合,還是招商銀行利用大數(shù)據(jù)的新成果,但是可以肯定,利用大數(shù)據(jù)分析可以為客戶提供定制化的服務(wù),實(shí)現(xiàn)精準(zhǔn)營銷。大數(shù)據(jù)正在改變企業(yè)業(yè)務(wù)模式,也讓人們的生活變得更加便利和豐富多彩。
存儲必須整合
大數(shù)據(jù)存儲是一類單獨(dú)的產(chǎn)品嗎?賽迪顧問高級分析師陳靚并不這么認(rèn)為:“把大數(shù)據(jù)軟件與存儲進(jìn)行整合,就稱為大數(shù)據(jù)存儲,未免有些牽強(qiáng)。如果非要說出大數(shù)據(jù)存儲的特征,那么我認(rèn)為它至少應(yīng)該能讓大數(shù)據(jù)的‘4V’發(fā)揮出應(yīng)有的效果,滿足大數(shù)據(jù)對性能和擴(kuò)展性的要求。”
“與其說大數(shù)據(jù)存儲是一類產(chǎn)品,不如說它是下一代的存儲架構(gòu)。這種架構(gòu)可以將傳統(tǒng)的DAS、SAN和NAS有效地整合起來,以滿足上層計算平臺的要求。”Forrester Research首席咨詢分析師戴昆表示,“大數(shù)據(jù)存儲本身的性能與傳統(tǒng)企業(yè)級存儲并沒有顯著差異,它主要依賴于上層計算平臺的分布式并行處理能力,但其擴(kuò)展性一定要強(qiáng)。”
“在中國市場上,大數(shù)據(jù)應(yīng)用還沒有真正落地,許多用戶談的還是BI(商業(yè)智能)。而從國外的實(shí)踐看,BI只是大數(shù)據(jù)的一部分,屬于大數(shù)據(jù)的起步階段,真正的大數(shù)據(jù)應(yīng)用是近實(shí)時或?qū)崟r的數(shù)據(jù)分析。”中橋調(diào)研咨詢首席分析師王叢告訴記者,“計算、存儲、網(wǎng)絡(luò)等都與大數(shù)據(jù)的價值有關(guān)。大數(shù)據(jù)存儲并不是一類單獨(dú)的產(chǎn)品,它也可以通過類似公有云或私有云的方式提供給用戶。應(yīng)用和數(shù)據(jù)量的增加,對數(shù)據(jù)的存取提出了更高要求。因此,并行存儲能力的增強(qiáng)對大數(shù)據(jù)存儲來說非常重要。”
EMC Isilon存儲事業(yè)部總經(jīng)理楊蘭江表示,大數(shù)據(jù)存儲有很多實(shí)現(xiàn)方式,不過它應(yīng)具備以下特性:海量數(shù)據(jù)存儲能力、全局命名空間、支持標(biāo)準(zhǔn)接口、讀寫性能優(yōu)異、易于管理維護(hù)、基于開放架構(gòu)、多級數(shù)據(jù)冗余、多級存儲備份等。
“存儲產(chǎn)品并不像網(wǎng)絡(luò)產(chǎn)品那樣有嚴(yán)格的界線,因此很難將大數(shù)據(jù)存儲單獨(dú)劃分出來。其實(shí),大數(shù)據(jù)存儲并不是只有分布式存儲這一種方式,傳統(tǒng)的存儲也可以成為大數(shù)據(jù)存儲解決方案的一部分。”華為存儲產(chǎn)品線市場總監(jiān)經(jīng)寧解釋說,“華為將大數(shù)據(jù)存儲當(dāng)成相對獨(dú)立的一類產(chǎn)品,主要是從產(chǎn)品的主定位角度考慮的。華為有針對企業(yè)級應(yīng)用的高端存儲,也有針對中小型用戶的通用存儲,當(dāng)然還有專門為大數(shù)據(jù)優(yōu)化的分布式、可橫向擴(kuò)展的大數(shù)據(jù)存儲。”
目前,業(yè)內(nèi)并沒有關(guān)于大數(shù)據(jù)存儲產(chǎn)品的通用定義,但是綜合考慮廠商的產(chǎn)品以及用戶的需求,可以簡單概括出大數(shù)據(jù)存儲的特征:首先,大數(shù)據(jù)存儲必須能夠支持全類型數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)支持;其次,在保證可靠性的基礎(chǔ)之上,大數(shù)據(jù)存儲必須具備線性擴(kuò)展能力,同時還要具有很強(qiáng)的批處理和實(shí)時處理能力;最后,在系統(tǒng)達(dá)到一定規(guī)模后,大數(shù)據(jù)存儲平臺的易用性和可管理性也是不可或缺的。
在大數(shù)據(jù)處理過程中,用戶發(fā)現(xiàn)性能的瓶頸并不在計算層面,而在于海量數(shù)據(jù)的上傳和下載。因此,極高的數(shù)據(jù)加載速率是大數(shù)據(jù)存儲必須具備的特性。大數(shù)據(jù)解決方案通常包含數(shù)據(jù)存儲、計算及分析,存儲是大數(shù)據(jù)基礎(chǔ)架構(gòu)中的一部分。
凸顯高性能、可擴(kuò)展
對中國用戶來說,大數(shù)據(jù)應(yīng)用落地的關(guān)鍵是如何更好地讓企業(yè)的IT決策者和架構(gòu)師理解業(yè)務(wù)需求,建立適合企業(yè)業(yè)務(wù)特點(diǎn)的數(shù)據(jù)應(yīng)用場景和數(shù)據(jù)管理架構(gòu),更好地利用企業(yè)現(xiàn)有的數(shù)據(jù)資產(chǎn),而非盲目地進(jìn)行所謂的大數(shù)據(jù)投資。“用戶首先要考慮的是什么樣的大數(shù)據(jù)應(yīng)用才能為企業(yè)帶來合理產(chǎn)出,其次再考慮大數(shù)據(jù)平臺和存儲,切勿本末倒置。”戴昆表示。
賽迪顧問的研究發(fā)現(xiàn),中國使用大數(shù)據(jù)存儲比較多的行業(yè)是電信、互聯(lián)網(wǎng)、金融等,其他行業(yè)大多還在觀望及測試中。中國用戶對于大數(shù)據(jù)存儲的需求首先是可靠和穩(wěn)定,金融行業(yè)的用戶非常重視這一點(diǎn);互聯(lián)網(wǎng)用戶則要求大數(shù)據(jù)存儲具有很高的I/O吞吐能力;電信行業(yè)的客戶更青睞高性價比的大數(shù)據(jù)存儲設(shè)備。
中國惠普有限公司企業(yè)集團(tuán)存儲產(chǎn)品部存儲架構(gòu)師張楠表示,很多中國用戶會追求大容量和高性能,忽略了大數(shù)據(jù)存儲本身應(yīng)該具有的其他屬性,這讓用戶在實(shí)際應(yīng)用中很容易遇到一些障礙,比如無法將存儲與大數(shù)據(jù)平臺進(jìn)行對接,無法在業(yè)務(wù)中充分發(fā)揮大數(shù)據(jù)存儲的價值等。究其原因,主要障礙在于有些大數(shù)據(jù)存儲產(chǎn)品沒有開放的接口協(xié)議, 沒有針對用戶的大數(shù)據(jù)應(yīng)用場景進(jìn)行特別優(yōu)化, 沒有提供用戶容易接受的易用管理方式等。
存儲的高可擴(kuò)展性、高可用性和并行處理能力是企業(yè)評估大數(shù)據(jù)存儲最重要的三個因素。高可擴(kuò)展性可以確保企業(yè)的IT能夠隨著數(shù)據(jù)量的增長和性能需求的提高進(jìn)行擴(kuò)展;高可用性能夠保證大數(shù)據(jù)分析過程的平穩(wěn)和無間斷運(yùn)行;高并行處理能力則能夠確保在大數(shù)據(jù)處理過程中同時進(jìn)行更多數(shù)據(jù)的處理,高效地完成數(shù)據(jù)分析,同時縮短產(chǎn)品或技術(shù)的上市周期。低延遲、自動分層存儲以及對10GbE網(wǎng)絡(luò)的支持等也是用戶評估大數(shù)據(jù)存儲的重要考核因素。
“如何管理好大數(shù)據(jù)真的是一個大問題。從IT的角度看,我們還缺乏能夠展現(xiàn)數(shù)據(jù)價值的行之有效的手段。數(shù)據(jù)作為一種資產(chǎn),如何被長期、高效、經(jīng)濟(jì)地保存也是一個問題。”華為海量存儲產(chǎn)品線總經(jīng)理袁遠(yuǎn)表示,“大數(shù)據(jù)提出了一個新的方法論——以數(shù)據(jù)為中心,而不是以應(yīng)用為中心。以數(shù)據(jù)為中心,就要考慮數(shù)據(jù)的來源,如何以更低的成本存儲和管理數(shù)據(jù),誰有權(quán)利獲得哪些數(shù)據(jù),對數(shù)據(jù)進(jìn)行分析前必須進(jìn)行模型化的抽象等。大數(shù)據(jù)需要新的工具、新的管理思路和方法,同時還要對技術(shù)架構(gòu)進(jìn)行創(chuàng)新。”
歐洲核子研究中心(CERN)創(chuàng)建的OpenLAB旨在通過部署全球領(lǐng)先的IT系統(tǒng)和解決方案,將全球大型強(qiáng)子對撞機(jī)(LHC)行業(yè)的資源、研究成果匯集在一起。持續(xù)快速增長的海量科研數(shù)據(jù)對CERN的存儲系統(tǒng)在可擴(kuò)展性、可靠性等方面提出了嚴(yán)峻挑戰(zhàn),這也促使CERN開始評估新的存儲技術(shù)。最終,CERN選擇了華為UDS云存儲系統(tǒng),并在三個月內(nèi)完成了安裝調(diào)測和基準(zhǔn)性能的評估。測試結(jié)果顯示,UDS創(chuàng)新的軟硬件和系統(tǒng)非常適合海量數(shù)據(jù)存儲的業(yè)務(wù)要求,這讓CERN可以在未來輕松應(yīng)對EB級數(shù)據(jù)量的挑戰(zhàn)。
談到華為大數(shù)據(jù)存儲解決方案的特色,經(jīng)寧概括說:“我們能更好地把握大數(shù)據(jù)的本質(zhì)需求,并依靠自主研發(fā)能力,在IT架構(gòu)上實(shí)現(xiàn)創(chuàng)新,將計算與存儲進(jìn)行有機(jī)結(jié)合。我們還基于自己的大數(shù)據(jù)存儲平臺,提供了多種類型的接口,便于與應(yīng)用銜接。”從產(chǎn)品研發(fā)的角度看,華為將重點(diǎn)放在了軟件方面,硬件則采用了開放的標(biāo)準(zhǔn)化的存儲服務(wù)器架構(gòu)。在2013年華為云計算大會上,華為與中央電視臺正式簽署合作協(xié)議,在大數(shù)據(jù)存儲領(lǐng)域建立戰(zhàn)略合作關(guān)系,為媒資行業(yè)提供領(lǐng)先的技術(shù)和應(yīng)用模式。雙方計劃聯(lián)合開發(fā)自適應(yīng)、深度節(jié)能的高密度、大容量的媒資存儲系統(tǒng)。
面對大數(shù)據(jù)的需求,存儲永遠(yuǎn)不變的是對數(shù)據(jù)可靠性、性能、可擴(kuò)展性和效率的追求,而有可能發(fā)生改變的是為了提高效率、節(jié)省消耗,存儲可以變得更加靈活,也可以考慮與計算進(jìn)行融合等。不管存儲如何變化,用戶對高性價比的需求始終不變。
數(shù)據(jù)收集和存儲是大數(shù)據(jù)分析的第一個環(huán)節(jié)。在大數(shù)據(jù)時代,應(yīng)用數(shù)量、數(shù)據(jù)量和使用者數(shù)量的增長,對存儲IOPS以及OLTP和OLAP的要求越來越高,具體表現(xiàn)在現(xiàn)有的存儲已不能滿足業(yè)務(wù)關(guān)鍵型應(yīng)用的需求。中橋調(diào)研咨詢針對中國用戶的調(diào)研數(shù)據(jù)顯示,F(xiàn)C SAN仍是企業(yè)級用戶(42.1%)和中型企業(yè)(34.0%)的首選,遠(yuǎn)高于其他存儲類型的占比。這是因?yàn)镕C SAN對OLTP和OLAP的性能穩(wěn)定性優(yōu)于其他存儲技術(shù)。這一調(diào)查結(jié)果也顯示,目前中國用戶大多處于大數(shù)據(jù)分析的第一階段,其工作以存儲和IT架構(gòu)的整合和優(yōu)化為主。王叢分析說,隨著Hadoop和MapReduce的不斷普及,中國用戶將逐步進(jìn)入近實(shí)時和實(shí)時分析階段,節(jié)點(diǎn)式存儲的占比會隨之增加。
打通行業(yè)價值鏈
華為的金字塔型“4V”理論具體來說,第一步,要建立一個高效的存儲架構(gòu)平臺,它既能處理大量的小文件,也能處理單體較大的文件。第二步,這個存儲平臺要具備極高的處理性能。第三步,這個存儲平臺要能處理多樣化的數(shù)據(jù),包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。只有通過前面三步打下的基礎(chǔ),企業(yè)用戶才能進(jìn)入最后一步,在一個高效的專門為大數(shù)據(jù)構(gòu)建和優(yōu)化的平臺上進(jìn)行數(shù)據(jù)分析和挖掘,并最終獲得所需的價值。
經(jīng)寧表示:“如果仔細(xì)甄別,大數(shù)據(jù)與海量數(shù)據(jù)還是有差別的,畢竟大數(shù)據(jù)不僅僅是指數(shù)據(jù)量大,還包括處理、分析和挖掘等過程。從表面上看,大數(shù)據(jù)的‘4V’特征是并列的關(guān)系,但實(shí)際上這些因素之間還是有層次性的。我們提出的大數(shù)據(jù)金字塔模型,可以更好展現(xiàn)大數(shù)據(jù)價值的實(shí)現(xiàn)過程。”
華為倡導(dǎo)構(gòu)建高效的大數(shù)據(jù)存儲平臺,而其中的高效又是如何來衡量的呢?高效的第一個衡量指標(biāo)就是性能。性能是大數(shù)據(jù)存儲平臺的基石之一,沒有性能的保證,大數(shù)據(jù)系統(tǒng)無異于空中樓閣。其次,大數(shù)據(jù)強(qiáng)調(diào)的是簡化使用,提高效率。最后,高效的大數(shù)據(jù)存儲平臺應(yīng)該采用融合的技術(shù)架構(gòu)。以華為OceanStor 9000大數(shù)據(jù)存儲系統(tǒng)為例,它采用華為首創(chuàng)的全融合創(chuàng)新架構(gòu),可以實(shí)現(xiàn)存儲、分析和歸檔的融合,同時具有很強(qiáng)的橫向擴(kuò)展能力,最大可擴(kuò)展至288節(jié)點(diǎn),單一文件系統(tǒng)可支持40PB容量。分析功能是指OceanStor 9000中內(nèi)置了分布式數(shù)據(jù)庫,能完成數(shù)據(jù)的快速檢索和查詢,以支持上層應(yīng)用。
華為一直堅持“被集成”的策略,這在大數(shù)據(jù)領(lǐng)域同樣適用。華為的大數(shù)據(jù)存儲平臺可以提供開放的接口,方便與BI軟件和應(yīng)用軟件連接,進(jìn)一步提高查詢效率。在 OceanStor 9000這樣的融合平臺之上,用戶還可以根據(jù)業(yè)務(wù)的情況靈活添加相關(guān)的功能模塊。“在大數(shù)據(jù)方面,我們主要從垂直行業(yè)切入,與行業(yè)ISV緊密合作,為金融、電信運(yùn)營商、媒體、智慧城市、石油勘探等領(lǐng)域的用戶提供端到端的大數(shù)據(jù)存儲解決方案。”經(jīng)寧說,“雖然我們已在大數(shù)據(jù)存儲市場上取得了豐碩的成果,但是我們更看好大數(shù)據(jù)存儲市場未來的潛力,因?yàn)槠湓鲩L速度遠(yuǎn)高于傳統(tǒng)存儲市場。”
更好的兼容 更經(jīng)濟(jì)的交付
中橋調(diào)研咨詢的調(diào)查結(jié)果顯示,未來24個月內(nèi),64.8%的用戶將部署新存儲來滿足大數(shù)據(jù)時代業(yè)務(wù)關(guān)鍵型應(yīng)用對存儲性能越來越高的需求。王叢表示:“針對大數(shù)據(jù)應(yīng)用,存儲可以選擇的余地較大,基于一些開源架構(gòu)的基礎(chǔ)平臺也能滿足大數(shù)據(jù)的需求。未來,大數(shù)據(jù)主要處理的是非結(jié)構(gòu)化數(shù)據(jù),如何將數(shù)據(jù)快速轉(zhuǎn)變?yōu)閮r值是關(guān)鍵。大數(shù)據(jù)不是一個產(chǎn)品,而是解決方案,只有將解決方案與應(yīng)用相結(jié)合才可能更好地挖掘數(shù)據(jù)的商業(yè)價值。”
綜合多位分析師的觀點(diǎn),在大數(shù)據(jù)存儲領(lǐng)域,國外廠商仍處于領(lǐng)跑地位,國內(nèi)廠商如華為也在大數(shù)據(jù)存儲領(lǐng)域保持了高速增長。各廠商在大數(shù)據(jù)存儲方面各具所長,誰能建立更好的客戶關(guān)系和生態(tài)系統(tǒng),使大數(shù)據(jù)存儲解決方案與企業(yè)現(xiàn)有的技術(shù)架構(gòu)兼容,并能實(shí)現(xiàn)更經(jīng)濟(jì)的交付,誰就能在大數(shù)據(jù)存儲市場上脫穎而出。
尋求容量、可靠性和速度的平衡
用戶說
對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲,除了考慮易用性、性能和安全因素以外,還要考慮與智能挖掘相關(guān)技術(shù)相結(jié)合。
大數(shù)據(jù)要求用戶不僅要對傳統(tǒng)商業(yè)智能軟件進(jìn)行改造,還要對企業(yè)已有的業(yè)務(wù)系統(tǒng)基礎(chǔ)架構(gòu)進(jìn)行改造。
大數(shù)據(jù)面臨的最大挑戰(zhàn)是大規(guī)模、實(shí)時的關(guān)聯(lián)性分析。對于存儲來說,高吞吐、低延遲的要求會越來越高,內(nèi)存、閃存的重要性也會越來越高。
中國的大數(shù)據(jù)應(yīng)用已經(jīng)起步。記者采訪了金融、互聯(lián)網(wǎng)、教育、制造等行業(yè)的一些敢于“吃螃蟹”的用戶。