方方面面的發(fā)展改進(jìn)已經(jīng)讓從半結(jié)構(gòu)化數(shù)據(jù)中獲取有價(jià)值信息成為可能。以Hadoop為代表的新型解決方案在構(gòu)建層面就充分考慮到了要如何適應(yīng)跨商用服務(wù)器集群的分布式運(yùn)行環(huán)境。
大數(shù)據(jù):以需求為導(dǎo)向的審視角度
新型分析工具與極大豐富的處理能力為我們敞開了一道大門,如今企業(yè)已經(jīng)能夠借此對(duì)龐大的業(yè)務(wù)及外部數(shù)據(jù)加以審視并獲取有價(jià)值結(jié)論。
從數(shù)據(jù)池當(dāng)中挖掘有價(jià)值信息,從而實(shí)現(xiàn)知識(shí)提升的能力早已不算什么新鮮事。事實(shí)上,早在一個(gè)多世紀(jì)以前,這樣的處理方式就已經(jīng)成為科學(xué)與商務(wù)領(lǐng)域的支柱性機(jī)制——其誕生時(shí)間甚至遠(yuǎn)早于計(jì)算機(jī)、數(shù)據(jù)庫以及其它主流技術(shù)成果。
舉例來說,來自倫敦的醫(yī)師John Snow曾在1854年記錄下霍亂疫情在倫敦蘇活區(qū)的具體病例爆發(fā)位置。他根據(jù)這些數(shù)據(jù)所繪制的疫情分布圖幫助醫(yī)護(hù)人員建立起霍亂與水源之間的病理性聯(lián)系,并確定寬待的一處公共水泵正是此次疾病的源頭。政府方面立即依數(shù)據(jù)指引采取了行動(dòng),從拆除該水泵開始一步步控制住了疾病的繼續(xù)蔓延。
Snow在十九世紀(jì)的研究成果可能被普遍視為“小數(shù)據(jù)”分析的勝利。當(dāng)然,時(shí)至今日,萬眾矚目的焦點(diǎn)其實(shí)是“大數(shù)據(jù)”,這一新興詞匯指的是兩類數(shù)量龐大的數(shù)據(jù)集合——其一為由傳統(tǒng)數(shù)據(jù)庫負(fù)責(zé)打理的結(jié)構(gòu)化數(shù)據(jù),其二則是以日志文件、位置數(shù)據(jù)、社交媒體內(nèi)容以及富媒體信息為代表的半結(jié)構(gòu)化數(shù)據(jù)。
Gartner公司對(duì)大數(shù)據(jù)進(jìn)行了更為準(zhǔn)確的規(guī)范性定義,大家可以將其概括為“3V”概念,即:“高容量(volume)、高速率(velocity)以及/或者多類別(variety)信息,需要通過新型處理機(jī)制才能借此對(duì)決策制定、結(jié)論發(fā)現(xiàn)以及處理優(yōu)化起到輔助作用。”在這里,“速率”指的是數(shù)據(jù)會(huì)以極高節(jié)奏進(jìn)行內(nèi)容更新,而“類別”則代表大數(shù)據(jù)會(huì)顯示出多種格式及結(jié)構(gòu)層級(jí)。
大數(shù)據(jù)時(shí)代的救世主:向外擴(kuò)展計(jì)算
最終,大數(shù)據(jù)已經(jīng)成為IT部門不可忽視的一類沉重負(fù)擔(dān)——其數(shù)據(jù)存儲(chǔ)規(guī)模開始成倍擴(kuò)大。如果不解決這一首要難題,企業(yè)根本無法從中提取到具備指導(dǎo)意義的實(shí)際價(jià)值。
大約十年之前,對(duì)如此規(guī)模的龐大數(shù)量集合、特別是半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析處理簡直可以說是癡人說夢(mèng)——即使是財(cái)力最為雄厚的企業(yè)也無從下手。能夠保存、整理并分析這類數(shù)據(jù)的工具根本不存在; 換言之,即使真實(shí)存在,其高昂的購買、部署與維護(hù)成本也會(huì)令企業(yè)望而卻步。
不過時(shí)至今日,方方面面的發(fā)展改進(jìn)已經(jīng)讓從半結(jié)構(gòu)化數(shù)據(jù)中獲取有價(jià)值信息成為可能。以Hadoop為代表的新型解決方案在構(gòu)建層面就充分考慮到了要如何適應(yīng)跨商用服務(wù)器集群的分布式運(yùn)行環(huán)境。包括MongoDB、Cassandra、Couchbase、Neo4j在內(nèi)的多種開源NoSQL數(shù)據(jù)庫帶來了類似于規(guī)模經(jīng)濟(jì)的擴(kuò)展機(jī)制:要添加更多計(jì)算與存儲(chǔ)容量,用戶只需在整套架構(gòu)當(dāng)中納入新的商用服務(wù)器即可——該架構(gòu)能夠在面臨個(gè)別節(jié)點(diǎn)故障的情況下保證數(shù)據(jù)不致丟失。
大數(shù)據(jù)解決方案既能夠運(yùn)行在內(nèi)部環(huán)境當(dāng)中,又可以棲身在公有云平臺(tái)之上——后者也正是眾多大數(shù)據(jù)解決方案的主要指向目標(biāo)。像Amazon EC2(全稱為彈性計(jì)算云,即Elastic Compute Cloud)這樣的商業(yè)云能夠根據(jù)實(shí)際需求提供成千上萬顆處理器計(jì)算核心以及幾乎不設(shè)上限的數(shù)據(jù)存儲(chǔ)容量。目前,只需一套網(wǎng)絡(luò)瀏覽器、一根網(wǎng)線外加一張個(gè)人信用卡,每位用戶都能以每小時(shí)1.70美元的實(shí)惠價(jià)格享受到具備32個(gè)虛擬CPU、60GB內(nèi)存以及600GB存儲(chǔ)容量的云基礎(chǔ)設(shè)施服務(wù)。
向外擴(kuò)展計(jì)算允許數(shù)據(jù)科學(xué)家們通過分而治之的方式處理大數(shù)據(jù)計(jì)算難題,這種分布式處理幾乎能夠在瞬間從龐大的數(shù)據(jù)集中返回對(duì)應(yīng)結(jié)果。與此同時(shí),先進(jìn)的分析與數(shù)據(jù)可視化技術(shù)則讓龐大而復(fù)雜的數(shù)據(jù)集變得易于理解,足以供不同領(lǐng)域的專家據(jù)此探尋更深層次的趨勢(shì)與規(guī)律。
大數(shù)據(jù)技術(shù)的市場(chǎng)規(guī)模近年來呈現(xiàn)出陡峭的上升曲線。根據(jù)IDC公布的2014預(yù)測(cè)報(bào)告顯示,大數(shù)據(jù)技術(shù)與服務(wù)市場(chǎng)將保持26%的年復(fù)合增長率、并于2018年達(dá)到415億美元的整體估值——這一速度基本相當(dāng)于信息技術(shù)整體市場(chǎng)增幅的六倍。A.T.Kearney公司則預(yù)計(jì),全球市場(chǎng)在大數(shù)據(jù)硬件、軟件以及服務(wù)領(lǐng)域所投入的開銷截至2018年將始終保持30%的年復(fù)合增長率。而到2018年,大數(shù)據(jù)服務(wù)與技術(shù)的整體市場(chǎng)規(guī)模將達(dá)到1140億美元。根據(jù)Wikkbon的統(tǒng)計(jì),2014年大數(shù)據(jù)市場(chǎng)總體價(jià)值為285億美元,而這一數(shù)字在2015年將增長至501億美元。
商業(yè)案例:老數(shù)據(jù)中蘊(yùn)藏新機(jī)遇
大數(shù)據(jù)給企業(yè)業(yè)務(wù)帶來的助益可以說顯而易見。一方面,企業(yè)能夠從數(shù)據(jù)中獲取到原本只能經(jīng)由應(yīng)用程序服務(wù)器或者(時(shí)間更久遠(yuǎn)的)備份磁帶乃至文件柜提供的重要信息。最直觀的例子就是網(wǎng)站點(diǎn)擊流數(shù)據(jù)、系統(tǒng)事件日志以及其它一些重要記錄。這些數(shù)據(jù)隨后即可被全新的垂直應(yīng)用程序體系所使用。
配合適當(dāng)?shù)臄?shù)據(jù)可視化工具之后,大數(shù)據(jù)就能夠幫助各個(gè)領(lǐng)域的專業(yè)人士與有價(jià)值信息建立起更為直觀的聯(lián)系,并從中獲取到分析師們有可能忽略的重要模式。
不夸張地說,大數(shù)據(jù)所蘊(yùn)藏的力量將只受到我們想象力的約束。下面舉幾個(gè)實(shí)例:
零售商已經(jīng)開始應(yīng)用這項(xiàng)新技術(shù)
舉例來說,蘋果的iBeacon會(huì)對(duì)客戶的活動(dòng)軌跡進(jìn)行追蹤,而且追蹤對(duì)象并非哪些客戶進(jìn)入了直營店、而是這些客戶在經(jīng)過店內(nèi)各檢測(cè)位置時(shí)正在做什么。其中包括他們?cè)谀男┊a(chǎn)品或者演示內(nèi)容前駐足,具體駐足時(shí)間有多長等等。將這些數(shù)據(jù)整理起來,再結(jié)合他們最終所購買的產(chǎn)品,蘋果就能發(fā)現(xiàn)如何更加有效地對(duì)直營店組織以及產(chǎn)品的標(biāo)注與銷售作出改革。
快捷腳本
快捷腳本每年能夠幫助醫(yī)生開具14億份處方。它會(huì)利用來自醫(yī)生辦公室、藥店、醫(yī)院以及實(shí)驗(yàn)室的數(shù)據(jù)分析結(jié)果來診斷哪些病患有可能拒絕服藥或者不同藥品之間可能產(chǎn)生的副作用。
航班信息收集
在2013年進(jìn)行的一次試點(diǎn)活動(dòng)中,通用電氣公司對(duì)來自25條不同航線的15000次航班進(jìn)行了完整的飛行信息收集,每次飛行產(chǎn)生的各項(xiàng)指標(biāo)數(shù)據(jù)高達(dá)14GB。通用電氣最終將這些TB級(jí)別的飛行數(shù)據(jù)集整理起來,從而實(shí)現(xiàn)高達(dá)十倍的成本節(jié)約效果。到2015年,通用電氣計(jì)劃每年對(duì)100萬次航班進(jìn)行監(jiān)控,其完整飛行操作數(shù)據(jù)總量將達(dá)到1500TB。
數(shù)據(jù)分析機(jī)制的應(yīng)用已經(jīng)相當(dāng)高效且演變速度極快,這甚至讓FTC(即美國聯(lián)邦貿(mào)易委員會(huì))被迫向部分企業(yè)發(fā)出警告、稱大數(shù)據(jù)分析技術(shù)有可能給某些實(shí)施目標(biāo)帶來公平性違反或?qū)е绿囟ㄈ后w受到損害。他們還特別強(qiáng)調(diào)了原本一直被認(rèn)為是安全無害的某些常見數(shù)據(jù),例如電費(fèi)單、點(diǎn)擊流數(shù)據(jù)、信用卡交易信息甚至是收費(fèi)站記錄——這些如今都能夠在大數(shù)據(jù)分析的處理下得出新型結(jié)論,且極有可能令隱私受到侵犯。
向云敞開懷抱
目前大數(shù)據(jù)領(lǐng)域最令人興奮的要素就是找尋那些與業(yè)務(wù)緊密相關(guān)、但卻一直未被劃入收集范疇或者受到保存的數(shù)據(jù)源。從簡單層面講,這可能需要大家將現(xiàn)有銷售趨勢(shì)與關(guān)鍵性經(jīng)濟(jì)數(shù)據(jù)進(jìn)行混合——或者采用時(shí)下最為流行的方式,在社區(qū)網(wǎng)絡(luò)站點(diǎn)上獲取與趨勢(shì)性議題相關(guān)的數(shù)據(jù)。這樣的處理機(jī)制讓個(gè)人隱私關(guān)注者們變得非常緊張。由外部數(shù)據(jù)供應(yīng)商所提供的數(shù)據(jù)可能會(huì)描繪出細(xì)致程度驚人的隱私信息詳情。
隨著云計(jì)算變得愈發(fā)流行,能夠與數(shù)據(jù)分析機(jī)制相對(duì)接的可用數(shù)據(jù)源的數(shù)量也呈現(xiàn)出爆發(fā)式增長。其中包括對(duì)社交媒體數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)以及醫(yī)療數(shù)據(jù)的挖掘能力,這些數(shù)據(jù)通常都由經(jīng)過充分定義的API加以訪問,并能夠通過互聯(lián)網(wǎng)進(jìn)行交付。盡管本身并不具備什么實(shí)際價(jià)值,但這類數(shù)據(jù)往往會(huì)在與其它時(shí)間序列型數(shù)據(jù)結(jié)合后帶來極具意義的關(guān)鍵性信息。舉例來說,我們可以通過對(duì)個(gè)人完整履歷的深入分析來推斷此人在未來幾年中犯罪入獄的可能性,預(yù)測(cè)某款新型產(chǎn)品線到底是瘋狂大賣還是無人問津,甚至檢測(cè)到某人或某個(gè)群體所攜帶的未確診健康問題將給人壽保險(xiǎn)賠付成本帶來的顯著影響。
各供應(yīng)商現(xiàn)在開始專門在企業(yè)商務(wù)智能體系內(nèi)提供這種按需數(shù)據(jù)服務(wù),其中包括以谷歌及AWS為代表的大型IaaS以及PaaS云計(jì)算供應(yīng)商。甚至政府機(jī)構(gòu)也著手提供按需數(shù)據(jù),正如世界各地不斷涌現(xiàn)的數(shù)據(jù)供應(yīng)商根據(jù)需求為企業(yè)用戶提供關(guān)鍵性商務(wù)智能服務(wù)支持一樣。事實(shí)上,經(jīng)營大數(shù)據(jù)分析服務(wù)的數(shù)據(jù)供應(yīng)商群體的不斷擴(kuò)大也反映出商務(wù)智能專家以及企業(yè)股東對(duì)于大數(shù)據(jù)分析中所蘊(yùn)含潛在價(jià)值的肯定。
換句話來說,大數(shù)據(jù)分析并不屬于利基業(yè)務(wù)。它實(shí)際是一塊復(fù)雜的區(qū)域,在這里用戶可以從大量平臺(tái)當(dāng)中作出選擇,而每種平臺(tái)都擁有著自己的優(yōu)勢(shì)與不足。事實(shí)上,大多數(shù)企業(yè)用戶在現(xiàn)有傳統(tǒng)數(shù)據(jù)庫之外,最終都會(huì)同時(shí)使用多種不同類型及品牌的新型數(shù)據(jù)庫方案。
最后,如今我們也擁有了能夠?qū)崿F(xiàn)這一系列分析任務(wù)的能力。越來越多的自動(dòng)化系統(tǒng)足以將大數(shù)據(jù)分析與業(yè)務(wù)流程結(jié)合在一起,從而允許運(yùn)營系統(tǒng)以近實(shí)時(shí)方式對(duì)多種閾值設(shè)定作出響應(yīng)。技術(shù)業(yè)界將這種機(jī)制稱為嵌入式分析,其中可能還引入了可編程、針對(duì)性配置方案或者足以支持此類服務(wù)的相關(guān)工具等。這些技術(shù)方案在業(yè)務(wù)環(huán)境下的作用實(shí)例包括分析實(shí)時(shí)交付的各項(xiàng)指標(biāo)、將訂單路由至擁有更出色追蹤記錄的供應(yīng)商或者利用已知的關(guān)鍵性預(yù)測(cè)數(shù)據(jù)整理出銷售趨勢(shì)展望、并借此以自動(dòng)化方式制定生產(chǎn)計(jì)劃。
平臺(tái)數(shù)量增長
Hadoop可以說是目前處理大規(guī)模結(jié)構(gòu)化與非結(jié)構(gòu)數(shù)據(jù)的首選平臺(tái)。該技術(shù)方案采用分布式處理框架與開發(fā)環(huán)境,通常來講只有借助特定的應(yīng)用程序開發(fā)技能才能對(duì)其加以高效利用。
數(shù)據(jù)處理流程與大數(shù)據(jù)分析即服務(wù)的崛起同樣起到了巨大而深遠(yuǎn)的顛覆性作用。Amazon目前將其Kineses平臺(tái)作為數(shù)據(jù)處理流程方案,而谷歌則將數(shù)據(jù)處理流程引入了其BigQuery——也就是該公司打造的基于云的大數(shù)據(jù)產(chǎn)品。利用這種數(shù)據(jù)處理流技術(shù),開發(fā)人員能夠每秒發(fā)送高達(dá)10萬行實(shí)時(shí)數(shù)據(jù),并以近實(shí)時(shí)方式對(duì)這些數(shù)據(jù)加以分析。這種能力對(duì)于那些要求使用實(shí)時(shí)信息的商務(wù)智能應(yīng)用程序來說顯然至關(guān)重要。
現(xiàn)在最大的問題在于,專用型大數(shù)據(jù)分析工具到底能否在已經(jīng)具備商務(wù)分析基礎(chǔ)設(shè)施的企業(yè)當(dāng)中確切起效。很多企業(yè)已經(jīng)制定了數(shù)據(jù)倉儲(chǔ)策略,而新型大數(shù)據(jù)解決方案則公然對(duì)其業(yè)已部署的傳統(tǒng)機(jī)制發(fā)起挑釁。與此同時(shí),向新型數(shù)據(jù)分析基礎(chǔ)設(shè)施轉(zhuǎn)移意味著我們將面臨大量設(shè)計(jì)與實(shí)施方面的挑戰(zhàn),其中包括數(shù)據(jù)整合、數(shù)據(jù)安保、數(shù)據(jù)治理、數(shù)據(jù)可視化以及解決數(shù)據(jù)復(fù)雜性等等。
商務(wù)智能不斷膨脹
傳統(tǒng)商務(wù)智能的設(shè)計(jì)思路在于對(duì)結(jié)構(gòu)化數(shù)據(jù)加以分析,從而提取出具備實(shí)用性的結(jié)論性信息。然而由于相關(guān)數(shù)據(jù)集往往太過陳舊或者規(guī)模有限,因此分析得出的結(jié)論也經(jīng)常存在局限性。此外,結(jié)構(gòu)化數(shù)據(jù)僅僅是企業(yè)掌握的業(yè)務(wù)數(shù)據(jù)中的一小部分。不少分析人士估計(jì),結(jié)構(gòu)化數(shù)據(jù)在企業(yè)整體數(shù)據(jù)總量中的占比恐怕只有5%左右。
大數(shù)據(jù)技術(shù)的興起讓商務(wù)智能迎來了一系列關(guān)鍵性發(fā)展趨勢(shì),相關(guān)方案包括以下幾種能力:
同時(shí)利用結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),并將數(shù)據(jù)匯聚成單一的信息邏輯集、進(jìn)而加以可視化處理。在分析時(shí)引導(dǎo)結(jié)構(gòu)變化,因此能夠通過對(duì)結(jié)構(gòu)化或者非結(jié)構(gòu)化物理數(shù)據(jù)的底層結(jié)構(gòu)進(jìn)行去耦來實(shí)現(xiàn)靈活性。利用現(xiàn)有或者近實(shí)時(shí)數(shù)據(jù),允許關(guān)鍵性應(yīng)用程序、業(yè)務(wù)流程以及相關(guān)人員查看到每分鐘進(jìn)行更新的當(dāng)前數(shù)據(jù)。在云環(huán)境下訪問來自外部的數(shù)據(jù)源,因此能夠讓商務(wù)智能分析工具獲取到企業(yè)之外的數(shù)據(jù)、進(jìn)而實(shí)現(xiàn)數(shù)據(jù)分析流程的強(qiáng)化或者改進(jìn)。
甚至政府機(jī)構(gòu)也著手提供按需數(shù)據(jù),正如世界各地不斷涌現(xiàn)的數(shù)據(jù)供應(yīng)商根據(jù)需求為企業(yè)用戶提供關(guān)鍵性商務(wù)智能服務(wù)支持一樣。
將數(shù)據(jù)分析與業(yè)務(wù)流程及應(yīng)用程序加以綁定,從而允許三者以無需人為干預(yù)的自動(dòng)化方式實(shí)現(xiàn)問題處理。
大數(shù)據(jù)分析能夠通過將規(guī)模龐大且在復(fù)雜程度、格式以及時(shí)間線方面有所不同的數(shù)據(jù)整合成單一的結(jié)構(gòu)化輸出結(jié)果,從而實(shí)現(xiàn)更出色的分析效果。大數(shù)據(jù)分析機(jī)制可以把文本、語音、流數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)分析結(jié)合成統(tǒng)一結(jié)構(gòu),進(jìn)而幫助企業(yè)通過動(dòng)態(tài)分析模式從相關(guān)信息中獲取到不同角度的審視結(jié)論。這些模式能夠獲取一切適用于分析機(jī)制的數(shù)據(jù)形式,其中包括多維、單維、面向?qū)ο笠约皩?shí)時(shí)流程等等。
請(qǐng)大家記住,最為通行的趨勢(shì)在于最大程度匯聚結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。其中非結(jié)構(gòu)化數(shù)據(jù)可能來自多種數(shù)據(jù)源類型,包括:
網(wǎng)絡(luò)頁面視頻與音頻文件文檔來自設(shè)備或者其它數(shù)據(jù)庫的流數(shù)據(jù)
商務(wù)智能工具仍然在不斷演變,旨在進(jìn)一步提升對(duì)大數(shù)據(jù)分析任務(wù)的支持能力。它們能夠提供更出色的數(shù)據(jù)可視化處理功能,從而對(duì)近實(shí)時(shí)信息以及類型更為廣泛的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)加以利用。簡單來說,只要數(shù)據(jù)本身擁有任何一種形式的電子格式,我們就有機(jī)會(huì)對(duì)其加以分析。
大數(shù)據(jù)分析機(jī)制可以把文本、語音、流數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)分析結(jié)合成統(tǒng)一結(jié)構(gòu),進(jìn)而幫助企業(yè)通過動(dòng)態(tài)分析模式從相關(guān)信息中獲取到不同角度的審視結(jié)論。
更多數(shù)據(jù)源,更多可能性
大數(shù)據(jù)分析所面臨的關(guān)鍵性挑戰(zhàn)在于,規(guī)模日益龐大的數(shù)據(jù)源本身可能并不具備固有結(jié)構(gòu)。我們將這些數(shù)據(jù)源匯聚至一套較為模糊且專為數(shù)據(jù)查詢所打造的結(jié)構(gòu)周邊,而后將整體結(jié)構(gòu)交付至數(shù)據(jù)分析API、服務(wù)或者商務(wù)智能工具,由后者負(fù)責(zé)處理數(shù)據(jù)可視化或者其它類型的交互式分析任務(wù)(詳見圖一)。
能夠提供趨勢(shì)性數(shù)據(jù)的社交媒體API或者服務(wù)以公共數(shù)據(jù)服務(wù)為代表的外部數(shù)據(jù)源傳統(tǒng)非結(jié)構(gòu)化數(shù)據(jù),例如基于文本的早期數(shù)據(jù)庫
那么這一切到底是如何運(yùn)作的?首先,非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)會(huì)被收集到一套文件系統(tǒng)當(dāng)中。在這里,我們考慮使用一套Hadoop分布式文件系統(tǒng)(簡稱HDFS)。
從理論層面講,HDFS的功能與其它大數(shù)據(jù)數(shù)據(jù)庫技術(shù)方案并沒有什么區(qū)別,不過我們可以在數(shù)據(jù)庫內(nèi)部利用多種不同機(jī)制對(duì)數(shù)據(jù)加以處理。或者,大家可能會(huì)發(fā)現(xiàn)自己的大數(shù)據(jù)架構(gòu)內(nèi)部使用多種數(shù)據(jù)庫技術(shù)??偠灾?,我們的具體需求決定了這一結(jié)構(gòu)的實(shí)際狀況。
為數(shù)據(jù)賦予意義
當(dāng)利用Hadoop進(jìn)行大數(shù)據(jù)分析時(shí),包括結(jié)構(gòu)化與非結(jié)構(gòu)化兩類數(shù)據(jù),這套分析引擎能夠在數(shù)秒之內(nèi)即向商務(wù)智能工具返回處理結(jié)果。大家可以利用商務(wù)智能工具來分析可視化數(shù)據(jù)、在企業(yè)應(yīng)用程序內(nèi)部使用嵌入式分析機(jī)制或者利用數(shù)據(jù)分析API或服務(wù)分析業(yè)務(wù)流程。
在Hadoop當(dāng)中,數(shù)據(jù)以塊的形式被保存在Hadoop集群當(dāng)中的不同節(jié)點(diǎn)內(nèi)部(見圖一)。這套文件系統(tǒng)會(huì)為這些數(shù)據(jù)塊創(chuàng)建多套副本,并通過可靠的方式將其發(fā)布至整個(gè)集群、旨在實(shí)現(xiàn)理想的檢索速度。數(shù)據(jù)塊的大小可謂多種多樣,但一般來說HDFS的典型數(shù)據(jù)塊大小為128MB,且會(huì)被復(fù)制到集群內(nèi)的多個(gè)節(jié)點(diǎn)之上。
我們?nèi)祟愑脩糁惶幚砦募@就意味著在其進(jìn)入文件系統(tǒng)之前、相關(guān)內(nèi)容往往并不屬于嚴(yán)格意義上的結(jié)構(gòu)化形式。接下來數(shù)據(jù)映射機(jī)制開始起效,通過對(duì)這些非結(jié)構(gòu)化內(nèi)容的處理為其定義出與內(nèi)容相關(guān)的核心元數(shù)據(jù)。由于分析工具或者其它數(shù)據(jù)使用方可能會(huì)對(duì)元數(shù)據(jù)提出不同類型的要求,因此這些非結(jié)構(gòu)化數(shù)據(jù)往往會(huì)被不斷重復(fù)映射、從而調(diào)整至最理想的分析狀態(tài)。
在某些情況下,我們還需要Hadoop Hive的協(xié)助。Hive是一套數(shù)據(jù)倉庫系統(tǒng),能夠?qū)Ρ4嬖贖adoop集群當(dāng)中的大型數(shù)據(jù)集進(jìn)行數(shù)據(jù)匯總、臨時(shí)性查詢以及分析。Hive提供的機(jī)制允許我們根據(jù)數(shù)據(jù)進(jìn)行結(jié)構(gòu)規(guī)劃,并利用一款名為HiveQL的類似于SQL的語言進(jìn)行數(shù)據(jù)查詢。其接口取決于大家的實(shí)際需求以及所使用商務(wù)智能工具的數(shù)據(jù)整合能力。
另一套選項(xiàng)則是Apache Pig。Pig是一款面向Hadoop的高層平臺(tái),用于創(chuàng)建MapReduce規(guī)劃。它會(huì)對(duì)來自MapReduce引擎的規(guī)劃方案進(jìn)行抽象化處理。與Hive類似,Pig同樣利用自己的獨(dú)特語言與數(shù)據(jù)進(jìn)行交互。
總體而言,當(dāng)我們通過一款商務(wù)智能工具執(zhí)行查詢時(shí),整個(gè)過程將分為以下步驟:
商務(wù)智能工具將與集群相對(duì)接,從而獲取到對(duì)應(yīng)的文件元數(shù)據(jù)信息。通常情況下,商務(wù)智能工具會(huì)直接處理已經(jīng)存在于分析用例或者模型當(dāng)中的數(shù)據(jù)結(jié)構(gòu)(詳見圖二)。大家應(yīng)該將這種結(jié)構(gòu)視為底層結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù)的一種抽象性表現(xiàn)形式。從這里開始,該系統(tǒng)將從數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)中獲取到真正的數(shù)據(jù)塊并將其帶回至自身結(jié)構(gòu)當(dāng)中。實(shí)際運(yùn)作當(dāng)中,相關(guān)物理以及邏輯節(jié)點(diǎn)的具體數(shù)量是隨機(jī)的,這取決于該系統(tǒng)的實(shí)際要求以及架構(gòu)設(shè)計(jì)方式。 MapReduce并行規(guī)模模式會(huì)從Hadoop集群當(dāng)中收集數(shù)據(jù)。這套系統(tǒng)負(fù)責(zé)處理細(xì)節(jié)操作信息、管理跨多種可用服務(wù)器資源的流程載入機(jī)制。請(qǐng)求所指向的結(jié)果集會(huì)被返回至商務(wù)智能工具處,用于后續(xù)可視化處理或者其它處理方式,這通常與特定數(shù)據(jù)結(jié)構(gòu)相關(guān)。商務(wù)智能工具能夠?qū)?shù)據(jù)分層交付至定義模型,其中包括直接從結(jié)果集中將數(shù)據(jù)加載至維度模型以實(shí)現(xiàn)復(fù)雜分析處理、或者將其交付至圖形表現(xiàn)流程。 在重復(fù)上述流程時(shí),這部分?jǐn)?shù)據(jù)將迎來增量式更新。
運(yùn)轉(zhuǎn)中的結(jié)構(gòu)
商務(wù)智能工具所使用的結(jié)構(gòu)可以專門針對(duì)數(shù)據(jù)分析目的所創(chuàng)建。相關(guān)信息存在于文件系統(tǒng)集群當(dāng)中,而元數(shù)據(jù)則根據(jù)用例所需要的支持方式被映射至對(duì)應(yīng)內(nèi)容。這就為用戶帶來了一類更具動(dòng)態(tài)以及靈活特性的商務(wù)智能解決方案。
這是一類非常常見的場(chǎng)景,而大家所選擇的商務(wù)智能工具當(dāng)中可能包含多種不同類型的具體方案。很多商務(wù)智能工具使用的映射機(jī)制能夠使數(shù)據(jù)擁有如存儲(chǔ)在傳統(tǒng)關(guān)系型數(shù)據(jù)庫中的效果。此類工具還能發(fā)揮大數(shù)據(jù)技術(shù)的大量原生性功能優(yōu)勢(shì),其中包括在對(duì)象利用等分析模型中以不同方式對(duì)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)加以處理的能力。
某些商務(wù)智能工具能夠?qū)⒔?jīng)過總結(jié)或者匯聚的數(shù)據(jù)載入至一套臨時(shí)性多維“立方(cube)”結(jié)構(gòu)當(dāng)中(詳見圖三)。這就允許分析人員以最具實(shí)用性的方式對(duì)來自大數(shù)據(jù)系統(tǒng)的信息進(jìn)行可視化處理。
這種模式的差異之處在于,現(xiàn)在結(jié)構(gòu)化與非結(jié)構(gòu)化兩類數(shù)據(jù)都能進(jìn)行可視化處理。此外,新型與經(jīng)過擴(kuò)展的分析機(jī)制也能夠借助這類可用性數(shù)據(jù)的交付而成為現(xiàn)實(shí),例如:
報(bào)告或者描述性分析建?;蛘哳A(yù)測(cè)性分析集群化關(guān)聯(lián)性分組
在大數(shù)據(jù)分析領(lǐng)域,最重要的一點(diǎn)在于新型思維方式正在不斷興起。如今數(shù)據(jù)已經(jīng)可以由任何有意對(duì)其加以審視的人進(jìn)行探索。我們的視野已經(jīng)不再局限于有限的自有業(yè)務(wù)數(shù)據(jù)范疇,惟一束縛我們實(shí)現(xiàn)數(shù)據(jù)整理及編輯的因素就只有想象力這一項(xiàng)。除此之外,我們的分析模式,例如預(yù)測(cè)性模式,在數(shù)據(jù)完整性的不斷提升之下足以提供更為理想的處理結(jié)果。
大數(shù)據(jù)可視化與分析用例
對(duì)于大數(shù)據(jù)的高度關(guān)注可以說貫穿于整個(gè)垂直業(yè)界當(dāng)中,但專業(yè)知識(shí)與投資額度卻呈現(xiàn)出廣泛而且差異化顯著的分散態(tài)勢(shì)(詳見圖四)。教育、醫(yī)療以及交通行業(yè)在2012年成為最為積極的大數(shù)據(jù)技術(shù)受眾。
到如今的2014年,我們的關(guān)注重點(diǎn)開始轉(zhuǎn)向?qū)?shù)據(jù)交付給在業(yè)務(wù)流程中扮演操作角色的工作人員,或者利用數(shù)據(jù)在分析機(jī)制與應(yīng)用程序或業(yè)務(wù)流程之間建立起直接關(guān)聯(lián)。這意味著在正確的時(shí)間將正確的數(shù)據(jù)交給正確的使用者。對(duì)于大數(shù)據(jù)分析系統(tǒng)的構(gòu)建者——通常采用我們之前所提到的各類技術(shù)方案——這意味著大家需要從原本企業(yè)領(lǐng)導(dǎo)者所關(guān)注的商務(wù)智能角度轉(zhuǎn)向?qū)嶋H操作人員更為關(guān)注的功能性層面。
數(shù)據(jù)維度
商務(wù)智能工具利用大量分析模型與結(jié)構(gòu)對(duì)大數(shù)據(jù)加以分析。在這種情況下,數(shù)據(jù)將被載入至一套多維臨時(shí)性模型當(dāng)中,并在這里以多種方式進(jìn)行可視化處理。
您所在的企業(yè)是否已經(jīng)在相關(guān)技術(shù)方案領(lǐng)域進(jìn)行投資,旨在通過特殊設(shè)計(jì)
解決大數(shù)據(jù)層面的實(shí)際挑戰(zhàn)?
根據(jù)Gartner公司的調(diào)查,幾乎所有垂直行業(yè)都開始在大數(shù)據(jù)分析領(lǐng)域進(jìn)行投資,其中教育、交通與醫(yī)療行業(yè)投入態(tài)度最為積極。
在多數(shù)情況下,這意味著支持實(shí)時(shí)或者近實(shí)時(shí)數(shù)據(jù)分析機(jī)制。最直觀的例子就是倉儲(chǔ)經(jīng)理需要通過一份包含未來幾個(gè)月庫存預(yù)估情況的預(yù)測(cè)性報(bào)告來部署執(zhí)勤人員,或者是醫(yī)師根據(jù)病患整體追蹤數(shù)據(jù)來判斷當(dāng)前患者是否會(huì)對(duì)某種藥物產(chǎn)生不良反應(yīng)。我們甚至有能力利用來自工業(yè) 機(jī)器人的匯總數(shù)據(jù)來評(píng)估未來四千個(gè)小時(shí)內(nèi)整套系統(tǒng)是否會(huì)出現(xiàn)運(yùn)作故障。
大家不妨考慮以下幾種用例:
用例:業(yè)務(wù)流程改進(jìn)
大數(shù)據(jù)分析能夠幫助企業(yè)以更為具體且準(zhǔn)確的方式對(duì)自身業(yè)務(wù)狀況進(jìn)行審視,其中自然包括業(yè)務(wù)流程的生產(chǎn)效率。分析機(jī)制能夠在數(shù)據(jù)可視化方案中以高亮效果標(biāo)注出業(yè)務(wù)流程當(dāng)中未達(dá)到既定標(biāo)準(zhǔn)的部分。
舉例來說,在數(shù)據(jù)可視化技術(shù)的輔助下,企業(yè)用戶可以從細(xì)節(jié)角度觀察銷售流程記錄以及出貨步驟,并了解其與其它業(yè)務(wù)流程及客戶滿意度之間的關(guān)系。對(duì)整個(gè)業(yè)務(wù)流程加以優(yōu)化能夠大大降低意外狀況,從而保證業(yè)務(wù)合作關(guān)系的穩(wěn)定發(fā)展。
用例:關(guān)鍵性業(yè)務(wù)應(yīng)用程序強(qiáng)化
在與企業(yè)運(yùn)營應(yīng)用程序相結(jié)合之后,嵌入式大數(shù)據(jù)分析機(jī)制能夠帶來可觀的商業(yè)價(jià)值。舉例來說,一家企業(yè)可以將出貨應(yīng)用與分析信息相結(jié)合,從而在數(shù)TB規(guī)模的多年出貨記錄PDF文件當(dāng)中整理出按時(shí)交貨記錄。這類數(shù)據(jù)也可以由來自外部數(shù)據(jù)源的信息構(gòu)成,例如客戶在社交媒體或者博客中表現(xiàn)出的抱怨情緒。
用例:改進(jìn)醫(yī)療方式與成效
醫(yī)療系統(tǒng)往往會(huì)通過多種不同格式在不同位置保存我們的信息,這就導(dǎo)致分析機(jī)制往往很難甚至無法將此類數(shù)據(jù)作為單一信息集群加以處理。但在大數(shù)據(jù)分析機(jī)制的幫助下,我們?nèi)缃窨梢詫⑺薪Y(jié)構(gòu)化與非結(jié)構(gòu)化醫(yī)療數(shù)據(jù)收集起來,并將其作為單一集群供商務(wù)智能工具加以分析。這能夠幫助醫(yī)療專家以預(yù)期療效為基準(zhǔn)對(duì)病患?xì)v史數(shù)據(jù)及療法進(jìn)行審視,從而大大提高其設(shè)計(jì)療法成功治愈疾病的可能性。
用例:改善零售企業(yè)業(yè)績表現(xiàn)
零售企業(yè)需要通過對(duì)特定市場(chǎng)及客戶的深入了解來構(gòu)建起屬于自身的獨(dú)特競爭優(yōu)勢(shì)。在這方面,大數(shù)據(jù)分析同樣擁有極為可觀的潛在價(jià)值。由其驅(qū)動(dòng)的商務(wù)智能工具可以創(chuàng)建出對(duì)應(yīng)模型,通過收集自龐大非結(jié)構(gòu)化數(shù)據(jù)的預(yù)測(cè)性數(shù)據(jù)點(diǎn)來評(píng)估一款產(chǎn)品獲得成功的可能性。
這類數(shù)據(jù)當(dāng)中可能包含對(duì)現(xiàn)有客戶群體的人口統(tǒng)計(jì)信息,并將其與過去曾經(jīng)獲得成功的產(chǎn)品作出模式比對(duì),進(jìn)而歸納出哪些氣候模式能夠確切影響到產(chǎn)品的市場(chǎng)接受情況(例如在氣溫極低的寒冬,羽絨服往往會(huì)大受歡迎)。這種思路旨在為零售企業(yè)中的核心決策者提供經(jīng)過深度剖析的數(shù)據(jù)處理結(jié)論,從而了解應(yīng)該對(duì)哪些產(chǎn)品進(jìn)行大力宣傳、優(yōu)惠銷售或者對(duì)其展示位置進(jìn)行調(diào)整。
用例:改進(jìn)交通系統(tǒng)
交通系統(tǒng)的核心訴求在于效率提升。舉例來說,航空公司在設(shè)定航線時(shí)需要選擇最平順而且最有利可圖的路線。在大數(shù)據(jù)分析機(jī)制的幫助下,決策者們可以利用包含有關(guān)鍵性預(yù)測(cè)指標(biāo)、能夠真實(shí)反映收集自外部數(shù)據(jù)源的數(shù)據(jù)集的歷史信息評(píng)估哪些路線最具商業(yè)開拓價(jià)值。
大數(shù)據(jù)分析允許航空公司從政府機(jī)關(guān)手中收集到多年以來積累下來的飛行數(shù)據(jù),其中包括起飛位置、乘客數(shù)量以及按時(shí)抵達(dá)記錄等等。他們隨后可以將來自其它航空公司的價(jià)格信息與這部分?jǐn)?shù)據(jù)進(jìn)行比對(duì)。在預(yù)測(cè)性數(shù)據(jù)中,他們還可以添加過去幾年中潛在乘客對(duì)目的地的網(wǎng)絡(luò)搜索次數(shù),再加上這些地點(diǎn)在社交媒體中被提及的頻率。通過將這些數(shù)據(jù)模型交付給商務(wù)智能工具,航空公司即可非常明確地找出可行而且能夠切實(shí)帶來收益的全新航線,甚至還包括未來機(jī)票的銷售情況乃至建議售價(jià)。
為企業(yè)規(guī)劃出發(fā)展道路
為了盡可能發(fā)揮大數(shù)據(jù)分析機(jī)制的潛能,大家需要將自身從傳統(tǒng)商務(wù)智能與數(shù)據(jù)倉庫體系當(dāng)中解放出來。遺憾的是,創(chuàng)造商務(wù)智能方案的技術(shù)人員往往傾向于將傳統(tǒng)商務(wù)智能機(jī)制強(qiáng)行納入全新大數(shù)據(jù)世界(這顯然有些格格不入)。這樣一來,他們就會(huì)錯(cuò)失發(fā)揮這一新型技術(shù)巨大能量的機(jī)會(huì)甚至遭遇慘痛的失敗。
除此之外,大數(shù)據(jù)技術(shù)市場(chǎng)目前確實(shí)呈現(xiàn)出相當(dāng)嚴(yán)重的碎片化與復(fù)雜化態(tài)勢(shì)。作為發(fā)展的早期階段,每家廠商都在打造純Hadoop類型的實(shí)施方案; 但時(shí)至今日,企業(yè)用戶已經(jīng)意識(shí)到自身特定需求必須由針對(duì)特定目的打造的數(shù)據(jù)庫來實(shí)現(xiàn),其中包括內(nèi)存內(nèi)、NoSQL或者其它一些專注于特殊功能的數(shù)據(jù)庫技術(shù),例如性能、大規(guī)模數(shù)據(jù)存儲(chǔ)或者與公有云供應(yīng)商的對(duì)接能力等。
將公有云作為大數(shù)據(jù)技術(shù)主機(jī)的方案既帶來良好的發(fā)展機(jī)遇,同時(shí)也造成了不少難題。大數(shù)據(jù)技術(shù)通常采用以云為基礎(chǔ)的多租戶機(jī)制,此外也為用戶提供能夠運(yùn)行在內(nèi)部環(huán)境下的版本。盡管公有云在可擴(kuò)展性與成本效益方面具備相當(dāng)程度的優(yōu)勢(shì),但企業(yè)仍然需要為其安全性及合規(guī)性保障操心費(fèi)力。此外,當(dāng)下的大部分?jǐn)?shù)據(jù)都散布于其原本生成之處,且需要由托管在公有云內(nèi)部的大數(shù)據(jù)系統(tǒng)加以逐一收集。
也就是說,大數(shù)據(jù)分析對(duì)于企業(yè)業(yè)務(wù)的可觀助力極具價(jià)值、不容忽視。大多數(shù)企業(yè)需要就當(dāng)下開始著手建立自己的大數(shù)據(jù)發(fā)展戰(zhàn)略,或者是對(duì)幾年前所打造的現(xiàn)有大數(shù)據(jù)戰(zhàn)略作出更新及調(diào)整。為了達(dá)成這一目標(biāo),下面我們一同來看在企業(yè)內(nèi)部實(shí)施大數(shù)據(jù)分析方面的幾點(diǎn)建議:
1. 從技術(shù)角度出發(fā)了解核心業(yè)務(wù)的實(shí)際需求,并以此為基礎(chǔ)創(chuàng)建業(yè)務(wù)用例。確保我們的注意力始終集中在戰(zhàn)略價(jià)值層面——例如如何更好地理解歷史業(yè)務(wù)記錄——以及戰(zhàn)術(shù)價(jià)值層面——例如如何在未來幾年內(nèi)顯著降低庫存成本。
2. 對(duì)自己的數(shù)據(jù)源加以定義。它們?cè)谀睦??它們到底是什么?如何最具效率地與數(shù)據(jù)源對(duì)接并根據(jù)需要進(jìn)行內(nèi)容復(fù)制?這意味著確切定義數(shù)據(jù)整合問題,從而順利將其從A點(diǎn)轉(zhuǎn)移至B點(diǎn)。
3. 定義已知用例,其中包括未來要用到的、能夠切實(shí)理解數(shù)據(jù)內(nèi)容的分析模型。
4. 創(chuàng)建一套概念驗(yàn)證機(jī)制,用于深入了解技術(shù)方案本身以及將該技術(shù)引入企業(yè)環(huán)境可能帶來的復(fù)雜性難題。
5. 考慮性能表現(xiàn)、安全性以及數(shù)據(jù)治理方面的問題。這些問題通過會(huì)受到忽視,但在成功的實(shí)施體系中卻又不可或缺。
6. 投入時(shí)間與金錢對(duì)商務(wù)智能技術(shù)的功能與特性進(jìn)行評(píng)估。商務(wù)智能與數(shù)據(jù)可視化方案的作用是為大家開啟審視數(shù)據(jù)的窗口,而任何局限性都會(huì)大大影響到數(shù)據(jù)價(jià)值的挖掘與發(fā)揮。
7.嚴(yán)格定義成功指標(biāo)。在使用大數(shù)據(jù)分析技術(shù)的一年之后評(píng)估哪些元素正常運(yùn)行,哪些卻未能順利起效。無需引發(fā)太多破壞性影響,我們就能對(duì)技術(shù)項(xiàng)目作出調(diào)試。
8. 最后,確保為這項(xiàng)技術(shù)創(chuàng)建一套發(fā)展路線圖。其中應(yīng)當(dāng)包含目前的使用方式以及短期與長期業(yè)務(wù)規(guī)劃。了解與計(jì)劃實(shí)施的技術(shù)相關(guān)的重要發(fā)展趨勢(shì),其中包括可選方案、底層技術(shù)以及可能獲得成功的方案供應(yīng)商,最后還要加上哪些選項(xiàng)最適合自身企業(yè)在未來的發(fā)展需要。
大數(shù)據(jù)分析技術(shù)的價(jià)值在企業(yè)領(lǐng)域已經(jīng)非常明確。充分利用良好信息的能力一直是擺在IT部門面前的重要難題與挑戰(zhàn)。現(xiàn)在我們已經(jīng)擁有了足以解決這一難題的工具,接下來要做的就是想辦法使其為自己服務(wù)了。