隨著云時(shí)代的到來(lái)和SaaS概念的引入,越來(lái)越多的企業(yè)開(kāi)始選擇由SaaS應(yīng)用提供商、運(yùn)營(yíng)商等通過(guò)互聯(lián)網(wǎng)平臺(tái)提供SaaS應(yīng)用服務(wù),SaaS應(yīng)用的數(shù)據(jù)量面臨著TB級(jí)的增長(zhǎng)速度;不同的SaaS應(yīng)用體系,提供的數(shù)據(jù)結(jié)構(gòu)也不完全相同,數(shù)據(jù)有文本、圖形甚至小型數(shù)據(jù)庫(kù);SaaS應(yīng)用數(shù)據(jù)隨著云服務(wù)平臺(tái)的分布性特點(diǎn),有可能分布在不同的服務(wù)器上,如何對(duì)這些異構(gòu)異源的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,是云時(shí)代的企業(yè)面臨的難題。
云時(shí)代企業(yè)數(shù)據(jù)挖掘面臨的挑戰(zhàn)
挖掘效率:進(jìn)入云計(jì)算時(shí)代后,BI的思路發(fā)生了轉(zhuǎn)換。以前是基于封閉的企業(yè)數(shù)據(jù)進(jìn)行挖掘,而面對(duì)引入互聯(lián)網(wǎng)應(yīng)用后海量的異構(gòu)數(shù)據(jù)(據(jù)預(yù)計(jì)到2020年,爆發(fā)式增長(zhǎng)的數(shù)據(jù)量將突破35ZB(1ZB=10億TB))時(shí),目前并行挖掘算法的效率很低。
多源數(shù)據(jù):引入云計(jì)算后,企業(yè)數(shù)據(jù)的位置有可能在提供公有云服務(wù)的平臺(tái)上,也可能在企業(yè)自建的私有云上,如何面對(duì)不同的數(shù)據(jù)源進(jìn)行挖掘也是一個(gè)挑戰(zhàn)。
異構(gòu)數(shù)據(jù):Web數(shù)據(jù)的最大特點(diǎn)就是半結(jié)構(gòu)化,如文檔、報(bào)表、網(wǎng)頁(yè)、聲音、圖像、視頻等,而云計(jì)算帶來(lái)了大量的基于互聯(lián)網(wǎng)模式提供的SaaS應(yīng)用,如何梳理有效數(shù)據(jù)是一個(gè)挑戰(zhàn)。
SaaS應(yīng)用的數(shù)據(jù)挖掘希望能夠通過(guò)海量數(shù)據(jù)存儲(chǔ)平臺(tái),引入快速并行的挖掘算法,提高數(shù)據(jù)挖掘的質(zhì)量。
如何選擇合理的基礎(chǔ)架構(gòu)
對(duì)于企業(yè)而言,如何將各種應(yīng)用數(shù)據(jù)進(jìn)行整合挖掘,提煉出適合其使用的商業(yè)信息是企業(yè)的一大急迫需求。傳統(tǒng)的BI模式大多基于數(shù)據(jù)倉(cāng)庫(kù),是關(guān)系型數(shù)據(jù)庫(kù)的模式。面對(duì)急劇增長(zhǎng)的異構(gòu)數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)和原有的并行計(jì)算技術(shù)由于挖掘效率低,已經(jīng)不能解決海量數(shù)據(jù)挖掘工作,影響著數(shù)據(jù)的及時(shí)提取。
一直以來(lái),商業(yè)智能系統(tǒng)往往基于傳統(tǒng)的SMP架構(gòu)小型機(jī)而構(gòu)建。隨著近年來(lái)X86平臺(tái)的性能與日俱增、可用性日漸提升、擴(kuò)展性飛速增長(zhǎng),X86平臺(tái)在越來(lái)越多的市場(chǎng)領(lǐng)域開(kāi)始侵蝕小型機(jī)份額,商業(yè)智能也成為X86架構(gòu)向RISC小型機(jī)發(fā)起進(jìn)攻的另一個(gè)戰(zhàn)場(chǎng)。例如,Oracle推出的基于英特爾至強(qiáng)平臺(tái)的Exadata數(shù)據(jù)庫(kù)云服務(wù)器,通過(guò)獨(dú)有的smartscan技術(shù),以及數(shù)據(jù)處理過(guò)程下移的設(shè)計(jì),在X86架構(gòu)基礎(chǔ)上同時(shí)提供了較高的OLAP性能(數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用)和OLTP性能。此外,IBM也推出了基于X86平臺(tái)的商業(yè)智能解決方案,基于IBM獨(dú)有的EX5架構(gòu)服務(wù)器和XIV網(wǎng)格存儲(chǔ)系統(tǒng)提供了不輸于小型機(jī)的智能信息處理能力。
選購(gòu)要點(diǎn):
1、高可用性:BI的基礎(chǔ)架構(gòu)層,需要建立起數(shù)據(jù)挖掘云服務(wù)平臺(tái),而這個(gè)平臺(tái),必然是高可用性的。
從高可用性來(lái)看,需要集中解決三個(gè)方面的問(wèn)題:一是數(shù)據(jù)保護(hù),需要利用CRC、ECC等硬件機(jī)制來(lái)對(duì)傳輸?shù)臄?shù)據(jù)進(jìn)行校驗(yàn)、糾錯(cuò),如果無(wú)法糾正,就將損壞的數(shù)據(jù)進(jìn)行隔離,以保證不造成更大的數(shù)據(jù),避免系統(tǒng)的重啟和宕機(jī)。
目前英特爾至強(qiáng)7500或E7合作的方案擁有諸多優(yōu)勢(shì),如成本低、性能高、可靠性(RAS)高、可擴(kuò)展性好等優(yōu)勢(shì)。在可擴(kuò)展性能上,X86平臺(tái)橫向的向外擴(kuò)展功能,即由兩臺(tái)以上的機(jī)器構(gòu)成集群。能滿(mǎn)足大多數(shù)企業(yè)關(guān)鍵應(yīng)用環(huán)境的負(fù)載需求,包括對(duì)內(nèi)存和CPU要求都較高的數(shù)據(jù)庫(kù)、商業(yè)應(yīng)用和虛擬化。進(jìn)而避免傳統(tǒng)UNIX雙機(jī)方案“成本高昂,備機(jī)資源平時(shí)嚴(yán)重閑置浪費(fèi),主機(jī)故障切換期間用戶(hù)服務(wù)被迫停頓”等諸多困境。
此外,7500一些設(shè)計(jì)已經(jīng)將計(jì)劃宕機(jī)時(shí)間最小化,這當(dāng)中包括系統(tǒng)分區(qū)管理技術(shù)、CPU和內(nèi)存的熱添加和熱移除等,將系統(tǒng)維護(hù)時(shí)間降低到最小。
2、虛擬化:數(shù)據(jù)挖掘云服務(wù)還是要依賴(lài)于虛擬化技術(shù),要計(jì)算資源自主分配和調(diào)度,也就是說(shuō)虛擬化技術(shù)是數(shù)據(jù)挖掘云服務(wù)技術(shù)的支撐。
千萬(wàn)不要被概念忽悠
大數(shù)據(jù)有很多不同的使用情況。因此,企業(yè)需要根據(jù)自身業(yè)務(wù)情況采用不同的的數(shù)據(jù)挖掘平臺(tái)。對(duì)于那些注重應(yīng)用分析和處理要求的客戶(hù)來(lái)說(shuō),有很多專(zhuān)門(mén)的解決方案,例如惠普Vertica,此外還有很多高性能NAS或者目標(biāo)系統(tǒng)。
同樣地,對(duì)于注重視頻、安防監(jiān)控、閉路電視、模擬仿真、大帶寬或吞吐量的話(huà),可以考慮惠普Ibrix、戴爾Exanet、BlueArc、HDS、NetApp、Data Direct Networks、Oracle 7000、EMC Isilon和VNX等。
總的來(lái)說(shuō),用戶(hù)可能會(huì)面對(duì)一大堆勸說(shuō)你遷移到更昂貴系統(tǒng)的市場(chǎng)炒作。可能你現(xiàn)在的系統(tǒng)已經(jīng)足夠好的——如果可以擴(kuò)展的話(huà),廠(chǎng)商提供給你的并不一定可能很好地運(yùn)行在你目前的環(huán)境下。
對(duì)用戶(hù)而言,需要警惕各種關(guān)于大數(shù)據(jù)的炒作,他們也許想要縮小你的選擇范圍。除了大數(shù)據(jù)所能帶來(lái)的機(jī)遇之外,還有很多不同的方面需要考慮,例如它的特性、應(yīng)用、使用實(shí)例以及部署方案。