《企業(yè)網(wǎng)D1Net》4月3日訊
大數(shù)據(jù)時代,不僅帶來巨大社會價值和商業(yè)價值,也帶來很多爭議和值得研究的話題。“大數(shù)據(jù)” 需要大量計算資源來存儲、組織處理與報告結(jié)果。這一新興領(lǐng)域改變了數(shù)據(jù)中心服務器與其他基礎(chǔ)設(shè)施的選擇與部署方式。
為了在現(xiàn)今的商業(yè)環(huán)境中競爭并獲得成功,公司必須通過對現(xiàn)有數(shù)據(jù)進行多維度的分析,才能做出業(yè)務決策。分析這些不斷膨脹的大數(shù)據(jù)已經(jīng)成為越來越重要的趨勢與機遇。
SearchDataCenter咨詢委員會將介紹受大數(shù)據(jù)影響的商業(yè)模式,如何改變企業(yè)數(shù)據(jù)中心的運作,并為大家提供關(guān)于新數(shù)據(jù)中心機會的獨特見解。
只需添加SAN
獨立培訓師兼顧問Sander van Vugt
大數(shù)據(jù)其實不是個很嚴重的問題。我的意思是,數(shù)據(jù)中心不會突然因為大數(shù)據(jù)的來到而突然變更他們處理海量數(shù)據(jù)的方式。
我的看法相當簡單:只需添加另一個存儲區(qū)域網(wǎng)絡(luò)(SAN),現(xiàn)在的SAN比早期具備更高的可擴展性。這意味著企業(yè)可以開始學習處理兩個不同等級存儲網(wǎng)絡(luò)的數(shù)據(jù):一個是他們正在使用的關(guān)鍵數(shù)據(jù),一個是仍然需要被保存,但不那么重要的數(shù)據(jù)。
業(yè)務應用會帶來越來越多的大數(shù)據(jù)機會
IT研究與分析公司Quocirca的創(chuàng)始人兼IT研究與服務總監(jiān)Clive Longbottom
我們還處在真正企業(yè)級大數(shù)據(jù)的起跑線上,路還很長。
現(xiàn)在,數(shù)據(jù)中心使用存儲虛擬化來組織聯(lián)合數(shù)據(jù)源。商業(yè)智能(BI)提供更先進的大數(shù)據(jù)處理方案,如Pentaho、Logi、QlikTech與Birst。基于Java的編程框架Hadoop被更先進的企業(yè)作為非持久性過濾器來處理多重數(shù)據(jù)類型。NoSQL 數(shù)據(jù)庫,例如MongoDB與CouchBase,成為處理非結(jié)構(gòu)化數(shù)據(jù)的有效利器。管理工具則有Splunk,可以協(xié)助完成服務器之間的數(shù)據(jù)文件管理等工作。
這些工具都需要使用自己的基礎(chǔ)設(shè)施來支持,并需要精心設(shè)計以得到理想的結(jié)果。分析及服務提供商不斷涌現(xiàn),提供BI與云計算能力——許多組織最終都會朝這個方向發(fā)展,以避免混合環(huán)境的復雜性。IBM、Teradata、EMC與其他廠商提供混合設(shè)備來滿足業(yè)務需求,可以滿足用戶保留所有在線數(shù)據(jù)并從外部資源吸取額外的信息?;旌显O(shè)備處理架構(gòu)處理介于與非結(jié)構(gòu)化數(shù)據(jù),處理方式比當前的大數(shù)據(jù)結(jié)構(gòu)更加工程化,但造價也相當不菲。
選好服務器、存儲與架構(gòu)
高級技術(shù)編輯Stephen J. Bigelow
選好用于數(shù)據(jù)分析的工具,如Hadoop與MapReduce軟件,它可以將任務分布到數(shù)千節(jié)點(處理器)上進行計算,并負責將結(jié)果收集起來。
軟件所使用的高可擴展性任務分布式計算方案與傳統(tǒng)的單線程執(zhí)行有著本質(zhì)上的不同,意味著大型服務器就擁有最大與最強的計算能力??梢约僭O(shè)大型的服務器也擁有最多的處理器核心,如Intel的Xeon E7-8800 v2處理器,擁有15個核心,并且支持超線程。數(shù)據(jù)中心可以通過購買這些服務器來解決大數(shù)據(jù)計算處理的問題。
精簡指令集處理器是許多大數(shù)據(jù)服務器的另一種選擇,它可以提供大量的處理器核心,而產(chǎn)生的熱量比傳統(tǒng)的x86處理器少得多。Dell開發(fā)了基于Calxeda ARM芯片的Zinc服務器來支持企業(yè)應用。
雖然更多處理器需要額外的內(nèi)存空間來處理與存儲結(jié)果,大數(shù)據(jù)更專注于計算任務,所以服務器的內(nèi)存總和可能會非常之大,甚至超過大幾百G。例如,HP的ConvergedSystem的Vertica Analytics Platform擁有128G內(nèi)存,IBM的System x針對Hadoop的參考架構(gòu)要求服務器具備384G內(nèi)存。
大數(shù)據(jù)服務器同樣還可以集成圖形處理單元,如NVIDIA公司的Tesla K40,因為GPU被設(shè)計為處理復雜的數(shù)學計算,如雙精度浮點計算可以達到1.4T flops(一個TFLOPS(teraFLOPS)等于每秒一兆(=1012)次的浮點運算)。大量數(shù)學計算可以從多個處理器中卸載到單個GPU上,還無需附加系統(tǒng)內(nèi)存。
任何大數(shù)據(jù)平臺在評估時都必須考慮基礎(chǔ)設(shè)施,如網(wǎng)絡(luò)和存儲。多端口網(wǎng)卡可以幫助服務器之間分配工作量。從千兆以太網(wǎng)升級到萬兆以太網(wǎng),可以在大數(shù)據(jù)環(huán)境下發(fā)揮更高利用率。還必須有足夠多的交換機端口(千兆或者萬兆以太網(wǎng)),以滿足所有服務器端口的連接需求。此外,IT架構(gòu)師還可以考慮將每個服務器的端口分攤到不同的交換機上,構(gòu)建更強大可用的環(huán)境。數(shù)據(jù)中心可能需要為更新型號的網(wǎng)絡(luò)交換機,提供更多預算。
Hadoop與其他大數(shù)據(jù)應用程序通常通過使用本地存儲與獨立處理器,而不是共享存儲來提升性能。將磁盤任務分配到許多磁盤上獨立運行,可以最小化磁盤延時。同樣還可以考慮使用固態(tài)硬盤替換傳統(tǒng)的機械硬盤,甚至還可以使用更快的、基于PCIE接口的固態(tài)硬盤加速卡來提升性能。
D1Net評論:
對于大數(shù)據(jù),有很多值得討論的地方,對大數(shù)據(jù)的見解也是仁者見仁,智者見智,眾多專家圍繞大數(shù)據(jù)各抒己見,為廣大用戶提供應用參考,對于用戶而言,正確認識大數(shù)據(jù)是將大數(shù)據(jù)應用到實處的前提條件。