我們正在歷經(jīng)一場由大數(shù)據(jù)應(yīng)用的普及引發(fā)的變革,即使如藍(lán)色巨人IBM這樣的傳統(tǒng)巨頭也在通過及時轉(zhuǎn)型來應(yīng)對這場技術(shù)浪潮的席卷。IBM認(rèn)為,大數(shù)據(jù)與工業(yè)時代的蒸汽、電力、石油一樣,都是重要的未來資源,企業(yè)需要專業(yè)人才掌握并利用這種資源,來推動這個時代的進(jìn)步和發(fā)展,就好像當(dāng)時有人利用石油和電力推動工業(yè)時代進(jìn)步一樣。
這時,企業(yè)CDO(首席數(shù)據(jù)官)責(zé)無旁貸地將挑起這個重任。CDO所關(guān)注的已經(jīng)不止于企業(yè)數(shù)據(jù)庫、數(shù)據(jù)工具和數(shù)據(jù)分析工具的選型,而是如何利用這些工具對企業(yè)內(nèi)部、外部行業(yè)數(shù)據(jù)進(jìn)行分析,并根據(jù)分析結(jié)果為企業(yè)日常運(yùn)營和未來發(fā)展提供戰(zhàn)略性指導(dǎo),成為企企業(yè)未來發(fā)展方向的參謀官。因此可以捕獲、管理和分析大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的工具對于企業(yè)和CDO來說,就是從眾多競爭者中脫穎而出的利刃。
近日,IBM 在北京富力萬麗酒店舉行“IBM數(shù)據(jù)管理與洞察研討會”,旨在幫助企業(yè)和CDO找到更專業(yè)的數(shù)據(jù)處理和分析服務(wù),以及如何利用IBM數(shù)據(jù)分析工具PDA與開源技術(shù)的結(jié)合,提高數(shù)據(jù)存儲、整合與治理以及最終的分析的能力,來定義大數(shù)據(jù)時代行業(yè)數(shù)據(jù)的新玩兒法。
PDA(Power Data System for Analytics)是IBM針對大數(shù)據(jù)倉庫推出的一體機(jī),具于快速、簡單、可擴(kuò)展和智能等特點(diǎn)。其專門用于在數(shù)據(jù)倉庫和OLAP系統(tǒng)中處理結(jié)構(gòu)化數(shù)據(jù),來解決企業(yè)傳統(tǒng)數(shù)據(jù)倉庫基礎(chǔ)架構(gòu)復(fù)雜、維護(hù)困難等弊端。
OLAP系統(tǒng)和OLTP的不同之處在于OLAP著重于分析型的系統(tǒng),呈現(xiàn)出以涉及數(shù)據(jù)量大、多表連接等特征。目前數(shù)據(jù)倉庫和OLAP市場上的主流技術(shù)架構(gòu)為Share Nothing+MPV,具體來說就是將數(shù)據(jù)按照一定的規(guī)則分布在多個磁盤上面,也就是我們常說的數(shù)據(jù)磁盤,相較OLTP系統(tǒng)將所有數(shù)據(jù)都存放于一塊盤上的方式,使用Share Nothing架構(gòu)會使余額表的數(shù)據(jù)均勻分布在所有磁盤,后續(xù)對這張余額表進(jìn)行的所有操作也都是所有磁盤一起運(yùn)行,使系統(tǒng)性能得到顯著提升。由于采用Share Nothing架構(gòu),使PDA擁有比傳統(tǒng)架構(gòu)快10—100位的數(shù)據(jù)處理速度。
硬件加速卡是PAD的技術(shù)核心,它由兩塊8核、128G的磁盤組成,整個機(jī)器可用數(shù)據(jù)容量192TB。硬件加構(gòu)卡主要有以下三個功能:
壓縮和解壓——數(shù)據(jù)入庫進(jìn)行壓縮和解壓且不占用計算節(jié)點(diǎn),而是完成在壓縮和解壓消耗的CPU兩個卡上面。
投影——我們可以把它簡單理解為把不需要的列去掉。PDA數(shù)據(jù)流入內(nèi)存前,會先經(jīng)過一道流處理將不需要的字段會被全部砍掉,很大程度上減少內(nèi)存壓力。
過濾——這是把不需要的行去掉。經(jīng)過投影和過濾功能處理過以后,數(shù)據(jù)從磁盤往內(nèi)存搬的時候,只會涉及到最后有用的數(shù)據(jù),使系統(tǒng)性能得到顯著提升。
PDA可以與Datastage等IBM內(nèi)部產(chǎn)品實現(xiàn)無縫集成。今年P(guān)DA新加入了Fluid Query,它可以實現(xiàn)客戶在應(yīng)用端發(fā)起查詢以后,無論這個查詢涉及幾張表,是在PDA平臺里還是在Hadoop平臺里,都可以通過Fluid Query功能自動去找到這張表對應(yīng)的平臺,然后去做相應(yīng)的查詢和操作業(yè)務(wù)。
IBM PDA通過磁盤、計算節(jié)點(diǎn)和管理節(jié)點(diǎn)來做到HA的三重保障。 另外,它支持很多第三方備份軟件,可以實現(xiàn)全量備分、插量備份、累計備分三種模式,最大程度保證數(shù)據(jù)安全。
最后要說明的是,PDA相對于市面上其他數(shù)據(jù)倉庫一體機(jī)來講是,需要企業(yè)投入的管理力量是最小的,體現(xiàn)幾點(diǎn)。第一,PDA沒有索、主件、外件和分區(qū),也基本不需要調(diào)優(yōu),因為它的調(diào)優(yōu)在模型設(shè)計階段已經(jīng)體現(xiàn)。第二,不需要存儲管理。PDA的設(shè)計中不存在傳統(tǒng)架構(gòu)中類似于表空間的儲存管理。第三,本身具有容錯機(jī)制。一旦發(fā)生故障,只需要及時將出現(xiàn)問題的部分及時更換,不會引起某個機(jī)器癱瘓,企業(yè)也就不用再雇傭?qū)B毜臄?shù)據(jù)管理員。
PDA走進(jìn)中國大陸地區(qū)不過三年時間,卻已經(jīng)擁有電信、證券、銀行等傳統(tǒng)行業(yè)在內(nèi)的40余位客戶,通過提供高性能、海量數(shù)據(jù)存儲和海量數(shù)據(jù)處理、降低運(yùn)維成本、對業(yè)務(wù)數(shù)據(jù)進(jìn)行更加深層次的分析研究等方面的解決方案,為企業(yè)帶來價值。