編者按: 德魯·卡特(Drew Carter)和馬克·賈爾斯(Mark Giles)分別是艾睿鉑(Alixpartners)紐約信息管理服務(wù)董事總經(jīng)理和倫敦信息管理服務(wù)董事總經(jīng)理。
在過(guò)去的十年里,大數(shù)據(jù)的崛起讓一大批供應(yīng)商嘗試?yán)么髷?shù)據(jù)的優(yōu)勢(shì)研發(fā)新的數(shù)據(jù)分析工具。
在固有分析工具進(jìn)行更新?lián)Q代的同時(shí),新興分析工具則宣稱它們才是 “潮流新品”,廣大用戶不清楚市面上有哪些分析工具。為機(jī)構(gòu)資源尋找合適投資的分析工具就像盲人瞎馬,是個(gè)高風(fēng)險(xiǎn)的賭博。
假設(shè)你是一個(gè)擁有大量信息的信息總監(jiān),并且需要解決一個(gè)業(yè)務(wù)問(wèn)題。要從分析工具琳瑯滿目的分析市場(chǎng)中找出最適合公司的工具組合看似很難,其實(shí)不然。分析工具主要有兩種:數(shù)據(jù)存儲(chǔ)和建模工具。廣義的數(shù)據(jù)存儲(chǔ)是:存儲(chǔ)數(shù)據(jù)以供未來(lái)使用的任意硬件和軟件組合。它們也許各有特點(diǎn),但通常擁有數(shù)據(jù)存儲(chǔ)和檢索的基本功能。建模工具由硬件和軟件組成,對(duì)數(shù)據(jù)進(jìn)行整合以得出規(guī)律。傳統(tǒng)開(kāi)發(fā)人員首先專注于數(shù)據(jù)存儲(chǔ),數(shù)據(jù)學(xué)家則利用建模工具進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘。要根據(jù)自身定位找出適合的工具就要從這兩種分析工具中挑選出合適的組合。這兩種分析工具可細(xì)分為七個(gè)不同的類別,每一類都有它獨(dú)特的優(yōu)勢(shì)和強(qiáng)大功能。要解決你公司的問(wèn)題,就要對(duì)這些工具進(jìn)行正確分組。
分析工具有:
數(shù)據(jù)存儲(chǔ)
傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)( RDBMS ): 正如它的字面意思,它代表人們?cè)谶^(guò)去 30 年里所指的數(shù)據(jù)庫(kù)。盡管這些數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)處理量比不上一些新型技術(shù),但在所有的分析工具中,它們擁有最完善的功能集,數(shù)據(jù)分析最透徹并且涉及的知識(shí)最規(guī)范。
超級(jí)英雄的首位英雄:美國(guó)隊(duì)長(zhǎng),當(dāng)之無(wú)愧的領(lǐng)導(dǎo)分析工具,雖然相比起其它分析工具來(lái)略顯過(guò)時(shí),但 RDBMS 仍然擁有強(qiáng)大功能,并能出色完成任務(wù)。
適用情況:需要解決的問(wèn)題并不是最麻煩的,但你需要一些成熟可靠的分析工具,讓員工能盡快上手。
非傳統(tǒng)數(shù)據(jù)庫(kù)( DB ): 這組數(shù)據(jù)庫(kù)包含眾多非 SQL 語(yǔ)言(代表“不使用 SQL 語(yǔ)言”或”不僅使用 SQL 語(yǔ)言”)的新型分析工具。這些工具除了運(yùn)用關(guān)系數(shù)據(jù)庫(kù)的基礎(chǔ)——關(guān)系模型外,還能用于保持中小型數(shù)據(jù)(即以兆字節(jié)或千兆字節(jié)計(jì)算)流暢加載,并且在使用得當(dāng)?shù)那闆r下,能加載以兆兆字節(jié)或帕特字節(jié)計(jì)算的數(shù)據(jù)。這類數(shù)據(jù)庫(kù)通常是跨硬件的源代碼開(kāi)放軟件工具;其供應(yīng)商通過(guò)出售包含產(chǎn)品支持的企業(yè)特別版軟件獲利。
超級(jí)英雄代表人物 : 黑寡婦,她引用卓越的處理技術(shù)處理大型數(shù)據(jù),是該方面的專家。同時(shí),也能實(shí)現(xiàn)不同功能間的快速轉(zhuǎn)換。
適用情況:希望運(yùn)用一個(gè)新型的框架擴(kuò)大數(shù)據(jù)規(guī)模,想要引用一種專門(mén)處理某類數(shù)據(jù)問(wèn)題的技術(shù),同時(shí)想嘗試引用新技術(shù)來(lái)博取大眾眼球。
大規(guī)模并行處理( MPP )關(guān)系數(shù)據(jù)庫(kù): 如果把傳統(tǒng)的 RDBMS 比作可靠的中型轎車,那么 MPP 關(guān)系數(shù)據(jù)庫(kù)就是汽車界的布加迪威龍(Bugatti Veyrons):擁有最強(qiáng)勁的馬力和極高的價(jià)格。這類數(shù)據(jù)庫(kù)與傳統(tǒng)的 RDBMS 組一樣,都以關(guān)系模型為基礎(chǔ),卻包含卓越的硬件和軟件工程,性能和容量大幅提升。因?yàn)閾碛性擁?xiàng)技術(shù),通常供應(yīng)商只出售該數(shù)據(jù)庫(kù)就能處理各類問(wèn)題,因此其安裝及維護(hù)費(fèi)用可能十分昂貴。
超級(jí)英雄代表人物 : 鋼鐵俠,本來(lái)是普通的東西(普通人,RDBMS),注入大量的資金和技術(shù),就成為英雄(身穿鐵甲的家伙,MPP 關(guān)系數(shù)據(jù)庫(kù))。
適用情況:與供應(yīng)商關(guān)系良好,愿意付出一大筆資金,且不希望對(duì)數(shù)據(jù)存儲(chǔ)的方式進(jìn)行任何重大改變。
Hadoop 和 NoSQL :Hadoop 是市面上能買(mǎi)到的擁有最大數(shù)據(jù)存儲(chǔ)容量的數(shù)據(jù)庫(kù)。基于雅虎網(wǎng)站(Yahoo!)和谷歌網(wǎng)站(Google)的搜索結(jié)果,當(dāng)需要處理最大容量的信息時(shí),就要求助于 Hadoop。這方面的產(chǎn)品通常包含了與數(shù)據(jù)錄入,數(shù)據(jù)管理和數(shù)據(jù)傳輸有關(guān)的應(yīng)用程序的整個(gè)計(jì)算機(jī)系統(tǒng)。
超級(jí)英雄代表人物 : 綠巨人,雖然不能盡善盡美,但如果需要大容量、高性能,他是不二之選。
適用情況:需要存儲(chǔ)和處理各類所有數(shù)據(jù)。
建模工具
成熟的建模工具: 這類建模工具旨在利用統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘方法處理數(shù)據(jù),從而得出分析洞見(jiàn)。最初的用戶是科學(xué)家和統(tǒng)計(jì)學(xué)家,現(xiàn)在用戶群已增至包含企業(yè)用戶。這些工具可以處理小型數(shù)據(jù)集,但通常可以擴(kuò)大使用范圍,或用來(lái)控制更強(qiáng)大的新一代平臺(tái)。
超級(jí)英雄代表人物:20 世紀(jì) 60 年代的蝙蝠俠——不可否認(rèn)他有點(diǎn)落后于時(shí)代,但他擁有幾乎每一項(xiàng)你所能想到的功用。
適用情況:需要使用一種功能強(qiáng)大且為每一個(gè)員工所熟悉的技術(shù)。例如,你的團(tuán)隊(duì)有多名能快速利用 Pandas 數(shù)據(jù)包進(jìn)行數(shù)據(jù)分析的 Python 開(kāi)發(fā)人員,或者擁有一支完全掌握內(nèi)外關(guān)鍵流程、經(jīng)驗(yàn)豐富的 SAS 建模團(tuán)隊(duì)。
平臺(tái): 大數(shù)據(jù)平臺(tái)是定義廣泛的應(yīng)用和基礎(chǔ)設(shè)施類別,旨在提供非常特定的功能。由于以具成本效益的方式維護(hù)大數(shù)據(jù)環(huán)境非常困難,大數(shù)據(jù)平臺(tái)大受歡迎。在本情況中,平臺(tái)精簡(jiǎn)必要的數(shù)據(jù)操作,讓用戶專注于“企業(yè)任務(wù)”。這些解決方案通常包含數(shù)據(jù)集成、分析和可視化。
超級(jí)英雄代表人物:X 教授——他擁有超乎想象的強(qiáng)大功能,豐富的感應(yīng)能力,但只限于在特定范圍內(nèi)。
適用情況:需要解決的問(wèn)題極為清晰,希望運(yùn)用一種功能齊全的高超技術(shù)為特定問(wèn)題提供最優(yōu)解決方案。
新一代建模工具: 新一代的建模工具興起于上一年代末,是專門(mén)為并行數(shù)據(jù)處理而開(kāi)發(fā)的。雖然這類工具仍處于新興階段,但正努力開(kāi)發(fā)能對(duì)大規(guī)模數(shù)據(jù)進(jìn)行接近實(shí)時(shí)分析的技術(shù)(達(dá)到如分析小型數(shù)據(jù)一樣簡(jiǎn)單的地步),致力于取代已經(jīng)成熟的建模工具。
超級(jí)英雄代表人物:21 世紀(jì)的蝙蝠俠——同樣是一種建模工具,但擁有更新、更強(qiáng)大的功能,甚至達(dá)到令人敬畏的技術(shù)高度。當(dāng)然,由于他更現(xiàn)實(shí),因此功能較為專一。
適用情況:面對(duì)前所未見(jiàn)的任務(wù),希望有最先進(jìn)的技術(shù)協(xié)助。