隨著大數(shù)據(jù)時代的不斷發(fā)展,直至今日,企業(yè)雖然認識到大數(shù)據(jù)分析能給企業(yè)帶來發(fā)展的價值,但傳統(tǒng)的數(shù)據(jù)管理和安全問題已經(jīng)阻礙了大數(shù)據(jù)的部署。
企業(yè)在什么情況下適合大數(shù)據(jù),這是由企業(yè)處于發(fā)展中的位置決定的。
許多提供大數(shù)據(jù)業(yè)務(wù)的廠商肯定都爭相想做企業(yè)的生意。畢竟,大的數(shù)據(jù)不是最小的數(shù)據(jù)集合,但大數(shù)據(jù)需要充分利用盡可能多的數(shù)據(jù)管理。如果你正在尋找一個部署大數(shù)據(jù)的定義,這卻不是完整的定義。你需要一個增長的數(shù)據(jù)中心基礎(chǔ)設(shè)施相匹配所有這些增長的數(shù)據(jù)。
這個大的數(shù)據(jù)熱潮才真正開始與Apache Hadoop的分布式文件系統(tǒng)(HDFS),開啟了基于成本效益規(guī)模的服務(wù)器使用相對便宜的本地磁盤群集的作為海量數(shù)據(jù)分析的時代。不管企業(yè)發(fā)展如何迅速,Hadoop及其相關(guān)大數(shù)據(jù)的解決方案,都可以保證持續(xù)分析各種原始數(shù)據(jù)(即,不完全結(jié)構(gòu)化的數(shù)據(jù)庫)。
問題在于,一旦你想從大數(shù)據(jù)入手,會發(fā)現(xiàn)傳統(tǒng)的數(shù)據(jù)項目,包括那些熟悉的企業(yè)數(shù)據(jù)管理問題又會涌現(xiàn)出來了,比如數(shù)據(jù)的安全性,可靠性,性能和如何保護數(shù)據(jù)。
雖然Hadoop HDFS已經(jīng)趨于成熟,但仍有不少差距以滿足企業(yè)需求。事實證明,當(dāng)大數(shù)據(jù)在進行產(chǎn)品生產(chǎn)數(shù)據(jù)收集時,這些存儲集群(DAS)上的產(chǎn)品可能實際上沒有提供最低的成本核算。
這里面,最關(guān)鍵的一點其實是大企業(yè)如何將大數(shù)據(jù)盤活了。我們當(dāng)然不是想簡單地拷貝、移動、備份大數(shù)據(jù)數(shù)據(jù)副本,復(fù)制大數(shù)據(jù)是一個大的工作。我們需要管理作為安全和謹慎,甚至更多的要求,所以,比小的不同的數(shù)據(jù)庫,不要抱著盡可能多的詳細信息。如果我們的關(guān)鍵業(yè)務(wù)流程的基礎(chǔ)上新的大數(shù)據(jù)的儲存中,我們會需要它的所有的操作彈性和高性能。
大數(shù)據(jù)歸屬的新選擇
物理DAS仍然是Hadoop最好的存儲介質(zhì),因為相關(guān)的高水平的專業(yè)和業(yè)務(wù)的公司的都是經(jīng)過研究和實踐來確定存儲介質(zhì)。但這樣基于HDFS的數(shù)據(jù)儲存卻有很大的問題。
首先,默認方案是所有資料進行復(fù)制,移動,然后備份。HDFS是基于大數(shù)據(jù)塊的I/O優(yōu)化,省去了數(shù)據(jù)交互的時間。以后的使用通常意味著數(shù)據(jù)復(fù)制出來。盡管有本地快照,但他們并不完全一致或時間點不完全可恢復(fù)。
對于這些和其他原因,企業(yè)存儲廠商聰明的將HDFS做改變,一些技術(shù)狂人類型的大數(shù)據(jù)專家使Hadoop計算利用外部存儲。但對許多企業(yè)來說,它提供了一個很好的妥協(xié):無需高維護存儲或存儲新的維護方式的適應(yīng),但這有一定的成本。
許多供應(yīng)商,如EMC的 isilon提供對Hadoop集群遠程HDFS的接口,是生意量比較大的企業(yè)首選。因為他們將是在isilon里,進行任何其他數(shù)據(jù)處理大數(shù)據(jù)的保護,其中包括安全和其他問題。另一個好處是,在外部存儲的數(shù)據(jù)通??梢栽L問其他協(xié)議(如網(wǎng)絡(luò)文件系統(tǒng),NFS)的儲存,支持工作流和限制數(shù)據(jù)的傳輸和企業(yè)內(nèi)需要的數(shù)據(jù)副本。NetApp也基于這樣的原理處理大數(shù)據(jù),一個大的數(shù)據(jù)參考架構(gòu),結(jié)合一個組合的存儲解決方案,直接進入Hadoop集群。
另外值得一提的是,虛擬化大數(shù)據(jù)分析。理論上,所有計算和存儲節(jié)點可以都可以進行虛擬化。VMware和RedHat/OpenStack有Hadoop的虛擬化解決方案。然而,幾乎所有的HDFS主機節(jié)點不能解決企業(yè)的存儲問題。一個有創(chuàng)意的新公司bluedata提出一個新的選擇。它模擬Hadoop計算方面使企業(yè)把現(xiàn)有的數(shù)據(jù)集——SAN/NAS——加速和轉(zhuǎn)儲到它的HDFS的覆蓋之下。在這種方式中,大數(shù)據(jù)分析可以做到一個數(shù)據(jù)中心的數(shù)據(jù)沒有任何變動,從而使用新的存儲架構(gòu)和新的數(shù)據(jù)流或數(shù)據(jù)管理的所有變化。
大多數(shù)Hadoop分布都是從近Apache的開源HDFS(目前軟件定義的存儲大數(shù)據(jù))開始,區(qū)別是它們采取了不同的方法。這基本上就是企業(yè)Hadoop所需存儲,從而建立自己的兼容存儲層在Hadoop HDFS上。MAPR版本是完全有能力處理I/O快照復(fù)制的支持,同時和原生支持的其他協(xié)議兼容,如NFS.它也非常有效,并有助于主要提供企業(yè)業(yè)務(wù)智能應(yīng)用程序,運行決策支持解決方案依賴于大數(shù)據(jù)的歷史和實時信息。類似的想法,IBM已經(jīng)出爐的高性能計算系統(tǒng)存儲API為Hadoop發(fā)行版作為一種替代HDFS.
另一個有趣的解決方案可以幫助解決數(shù)據(jù)的問題。一個是dataguise,數(shù)據(jù)安全啟動,能切實有效地保護Hadoop的大數(shù)據(jù)集的一些獨特的IP,它可以在一個大的數(shù)據(jù)聚類自動識別和全局覆蓋或加密敏感資料。水平線數(shù)據(jù)科學(xué)(Water LineScience)是這個領(lǐng)域的新興技術(shù),如果你連線登陸你的數(shù)據(jù)文件到Hadoop,無論數(shù)據(jù)在哪里,即使是HDFS,它都將自動儲存。 大數(shù)據(jù)提供的產(chǎn)出物有助于快速建立商業(yè)應(yīng)用,利用數(shù)據(jù)的來源和位置來統(tǒng)計商業(yè)所需的資料。
D1Net評論:
對于廣大用戶而言,尤其是企業(yè)用戶,如果你一直持有Hadoop的管理或企業(yè)數(shù)據(jù)中心存儲的興趣,這是一個好時機去update自己對大數(shù)據(jù)的了解,如果你想跟得上大數(shù)據(jù)的腳步,就不應(yīng)該拒絕新技術(shù)的應(yīng)用。