企業(yè)大數(shù)據(jù)分析實(shí)踐指南、總結(jié)與展望

責(zé)任編輯:editor007

2016-12-16 20:30:54

摘自:datahoe

電信運(yùn)營(yíng)商使用最近通話(huà)行為數(shù)據(jù)建立流失模型,估計(jì)客戶(hù)在未來(lái)一到三個(gè)月流失的可能性。政府采用數(shù)據(jù)分析技術(shù)來(lái)預(yù)測(cè)逃稅行為,優(yōu)化公共預(yù)算分配,分析交通數(shù)據(jù)提高公共交通效率,分析預(yù)測(cè)恐怖襲擊保障國(guó)家安全。

摘要:在我們身處的時(shí)代,數(shù)據(jù)無(wú)處不在。據(jù)IBM公司估算,我們每天產(chǎn)生約2.5萬(wàn)ZB的數(shù)據(jù),這意味著世界上90%數(shù)據(jù)都是過(guò)去的兩年中產(chǎn)生的。

數(shù)據(jù)無(wú)處不在

在我們身處的時(shí)代,數(shù)據(jù)無(wú)處不在。據(jù)IBM公司估算,我們每天產(chǎn)生約2.5萬(wàn)ZB的數(shù)據(jù),這意味著世界上90%數(shù)據(jù)都是過(guò)去的兩年中產(chǎn)生的。

Gartner公司分析報(bào)告顯示,在2015年財(cái)富500強(qiáng)的公司中百分之八十五的企業(yè)無(wú)法利用大數(shù)據(jù)來(lái)獲取競(jìng)爭(zhēng)優(yōu)勢(shì)。

到2020年,全世界將有上百萬(wàn)大數(shù)據(jù)相關(guān)的就業(yè)機(jī)會(huì)產(chǎn)生。這些龐大的數(shù)據(jù)蘊(yùn)藏了寶貴財(cái)富,企業(yè)可以使用最先進(jìn)的分析技術(shù),利用這些數(shù)據(jù)更好地了解客戶(hù)的行為,識(shí)別商業(yè)機(jī)會(huì),制定運(yùn)營(yíng)戰(zhàn)略。

讓我們舉幾個(gè)例子:

金融機(jī)構(gòu)每天通過(guò)信用評(píng)分模型,了解他們的客戶(hù)在未來(lái)12個(gè)月內(nèi)每種信貸產(chǎn)品(抵押貸款、信用卡、分期貸款)上的信用。他們以該信用評(píng)分為基礎(chǔ)來(lái)進(jìn)行壞帳準(zhǔn)備,計(jì)算巴塞爾協(xié)議II/III規(guī)定所需資本金數(shù)量,或是制定營(yíng)銷(xiāo)方案(例如根據(jù)信用評(píng)分調(diào)整信用卡額度)。

電信運(yùn)營(yíng)商使用最近通話(huà)行為數(shù)據(jù)建立流失模型,估計(jì)客戶(hù)在未來(lái)一到三個(gè)月流失的可能性。

運(yùn)營(yíng)商會(huì)根據(jù)模型得分來(lái)制定營(yíng)銷(xiāo)活動(dòng),避免有價(jià)值的客戶(hù)流失。

Facebook和Twitter會(huì)使用社交媒體分析技術(shù)進(jìn)行內(nèi)容分析和情感語(yǔ)義分析,以便更好地了解品牌認(rèn)知度,進(jìn)一步調(diào)整產(chǎn)品服務(wù)設(shè)計(jì)。

亞馬遜和Netflix等在線(xiàn)零售商不斷地分析顧客的購(gòu)買(mǎi)行為,以決定產(chǎn)品捆綁銷(xiāo)售策略,并利用推薦系統(tǒng)為客戶(hù)下一次購(gòu)買(mǎi)推薦產(chǎn)品。

信用卡公司使用欺詐檢測(cè)模型,檢測(cè)付款是否具有欺騙性,是否發(fā)生了信用卡盜刷。

政府采用數(shù)據(jù)分析技術(shù)來(lái)預(yù)測(cè)逃稅行為,優(yōu)化公共預(yù)算分配,分析交通數(shù)據(jù)提高公共交通效率,分析預(yù)測(cè)恐怖襲擊保障國(guó)家安全。

化數(shù)據(jù)為價(jià)值

數(shù)據(jù)是任何分析模型成功的基礎(chǔ)。當(dāng)啟動(dòng)分析項(xiàng)目時(shí),有必要詳細(xì)列出企業(yè)內(nèi)所有可用于分析的數(shù)據(jù)。這里的原則就是數(shù)據(jù)越多越好!因?yàn)楹芏喾治瞿P投寄茏詣?dòng)決定哪些數(shù)據(jù)對(duì)當(dāng)前分析很重要,哪些數(shù)據(jù)可以排除在下一步分析之外。

我們的研究不斷印證了這樣一個(gè)觀點(diǎn):改善分析模型最好的辦法,就是投資于你的數(shù)據(jù)!這可以通過(guò)數(shù)量和質(zhì)量?jī)蓚€(gè)維度的提升來(lái)完成。對(duì)于前者,一個(gè)關(guān)鍵點(diǎn)是如何整合結(jié)構(gòu)化數(shù)據(jù)(例如關(guān)系數(shù)據(jù)庫(kù))和非結(jié)構(gòu)化數(shù)據(jù)(如文本),提供全方位綜合視角進(jìn)行客戶(hù)行為分析的,另一個(gè)關(guān)鍵點(diǎn)則是在線(xiàn)數(shù)據(jù)和離線(xiàn)數(shù)據(jù)的整合,很多企業(yè)為這個(gè)問(wèn)題所困擾。此外企業(yè)還可以超越其內(nèi)部邊界,考慮從外部數(shù)據(jù)供應(yīng)商那里購(gòu)買(mǎi)外部數(shù)據(jù),以彌補(bǔ)其內(nèi)部數(shù)據(jù)的不足。大量的研究表明采用外部數(shù)據(jù),對(duì)比較和完善分析模型非常有用。

雖然數(shù)據(jù)常常體量巨大,但是數(shù)據(jù)質(zhì)量經(jīng)常是一個(gè)痛點(diǎn)。GIGO(garbage in garbage out)的原則在這里非常適用,爛數(shù)據(jù)只會(huì)生成爛模型。聽(tīng)起來(lái)顯而易見(jiàn),然而實(shí)踐中數(shù)據(jù)質(zhì)量往往成為許多分析項(xiàng)目的“阿喀琉斯之踵”。數(shù)據(jù)質(zhì)量可以分解成很多維度:準(zhǔn)確性、完整性、新近度、一致性等。在大數(shù)據(jù)分析中,企業(yè)必須專(zhuān)門(mén)制定數(shù)據(jù)質(zhì)量管理方案,設(shè)立數(shù)據(jù)審核員、數(shù)據(jù)管家或數(shù)據(jù)質(zhì)量經(jīng)理等職位,持續(xù)監(jiān)測(cè)數(shù)據(jù)質(zhì)量。

數(shù)據(jù)分析應(yīng)該從商業(yè)問(wèn)題開(kāi)始,而不是從具體的技術(shù)解決方案開(kāi)始。但是這帶有一絲“雞生蛋,蛋生雞”的意味。要解決商業(yè)問(wèn)題、識(shí)別商業(yè)機(jī)會(huì),需要對(duì)潛在的技術(shù)解決方案有了解。以社交媒體分析為例,只有首先了解分析技術(shù)后,公司才能開(kāi)始思考如何利用它們研究在線(xiàn)品牌認(rèn)知度,進(jìn)行趨勢(shì)監(jiān)測(cè)。為了跨越分析技術(shù)和業(yè)務(wù)之間的鴻溝,持續(xù)性培訓(xùn)和學(xué)習(xí)是關(guān)鍵,它能使企業(yè)始終屹立在分析技術(shù)的潮頭,保持競(jìng)爭(zhēng)優(yōu)勢(shì)。在這一點(diǎn)上,學(xué)術(shù)界應(yīng)該深刻檢討,因?yàn)楝F(xiàn)有的很多大數(shù)據(jù)分析(或數(shù)據(jù)科學(xué))碩士課程無(wú)法滿(mǎn)足上述的要求。

將數(shù)據(jù)轉(zhuǎn)化為洞察力和提升價(jià)值的另一個(gè)關(guān)鍵點(diǎn)是分析模型的驗(yàn)證。分析模型需要適當(dāng)?shù)臋C(jī)制和工具來(lái)進(jìn)行審核和驗(yàn)證,越來(lái)越多的公司將分析團(tuán)隊(duì)拆分成模型開(kāi)發(fā)和模型驗(yàn)證兩個(gè)團(tuán)隊(duì)。良好的公司治理能夠在兩個(gè)團(tuán)隊(duì)之間筑起一道防火墻,使得由前一小組開(kāi)發(fā)的模型可以客觀和獨(dú)立地被后者團(tuán)隊(duì)評(píng)估。公司甚至可以考慮由外部合作伙伴進(jìn)行模型驗(yàn)證。通過(guò)建立分析基礎(chǔ)信息設(shè)施,公司能夠不斷基于現(xiàn)有狀況對(duì)模型進(jìn)行評(píng)估和驗(yàn)證,提升分析模型性能,抓住更多目標(biāo)客戶(hù)。

數(shù)據(jù)分析往往不是一蹴而就的事情。事實(shí)上,當(dāng)分析模型投入使用時(shí)就已經(jīng)過(guò)時(shí)了!分析模型總是落后于現(xiàn)實(shí),我們能做的只是保持這種滯后性盡可能小。分析模型所使用的數(shù)據(jù),都是在一個(gè)特定的時(shí)間點(diǎn)和特定的內(nèi)外部環(huán)境條件下采集得到的。這一特定環(huán)境不是靜態(tài)的,而是隨著內(nèi)部因素(如新戰(zhàn)略,不斷變化的客戶(hù)行為)和外部因素(新宏觀經(jīng)濟(jì)環(huán)境和法律法規(guī))不斷變化而變化。

例如,欺詐檢測(cè)分析中,欺詐者總是試圖不斷逃避模型的偵測(cè),以騙取更多的錢(qián)財(cái)。另一個(gè)例子是信用評(píng)分模型在很大程度上依賴(lài)于當(dāng)前的宏觀經(jīng)濟(jì)狀況(復(fù)蘇或是衰退)。因此,分析模型要取得成功創(chuàng)造價(jià)值,就必須對(duì)內(nèi)外部環(huán)境進(jìn)行監(jiān)測(cè),以及時(shí)調(diào)整或重建模型。

構(gòu)建底層基礎(chǔ)

為了建立一個(gè)分析環(huán)境,企業(yè)需要就所采納的硬件和軟件技術(shù)進(jìn)行選擇。

硬件方面,需要專(zhuān)門(mén)的基礎(chǔ)設(shè)施(如Hadoop和相關(guān)的軟件棧)來(lái)清理、整合、存儲(chǔ)和管理數(shù)據(jù)。為了減少支出,企業(yè)可能選擇云存儲(chǔ),并將大數(shù)據(jù)作為一種服務(wù)。公司在同外部進(jìn)行數(shù)據(jù)傳輸和交換時(shí),應(yīng)采取適當(dāng)?shù)闹?jǐn)慎措施,保證數(shù)據(jù)私密性。

軟件方面,很多廠商提供了大數(shù)據(jù)分析的商業(yè)解決方案。目前市場(chǎng)還有很多的開(kāi)源分析軟件(R、weka、Rapidminer),雖然這些開(kāi)源軟件解決方案變得非常流行,但是他們還不夠成熟,還不足以很好的處理具有大體量、多樣性等特性的大數(shù)據(jù)。大數(shù)據(jù)分析成為越來(lái)越多公司的DNA 組成部分,但是政府、金融、醫(yī)藥,每個(gè)行業(yè)都有自己發(fā)展足跡,數(shù)據(jù)、業(yè)務(wù)和監(jiān)管都具有特異性,需要針對(duì)不同的基因組成進(jìn)行不同的設(shè)置。因此企業(yè)需要的是能提供綜合全面垂直業(yè)務(wù)解決方案的軟件,而不是一個(gè)跨行業(yè)的橫向通用軟件。

鑒于建立數(shù)據(jù)分析構(gòu)架環(huán)境的復(fù)雜性,公司可能會(huì)考慮外包。然而,公司內(nèi)部數(shù)據(jù)及其蘊(yùn)藏的信息是公司最寶貴的戰(zhàn)略資產(chǎn),因此不宜讓第三方完全擁有數(shù)據(jù)訪問(wèn)權(quán)。相反,企業(yè)應(yīng)該建立內(nèi)部分析中心和培養(yǎng)公司人員的分析技能,以服務(wù)公司廣泛的分析需求,這是公司在管理中應(yīng)該考慮的問(wèn)題。同樣公司董事會(huì)和高級(jí)管理人員都應(yīng)該參與到分析環(huán)境構(gòu)建中。很多企業(yè)還嘗試設(shè)立首席分析官(CAO)這樣的職位,專(zhuān)門(mén)負(fù)責(zé)建立企業(yè)范圍內(nèi)的分析環(huán)境和基礎(chǔ)設(shè)施,管理各業(yè)務(wù)單位分析模型的研發(fā)、審核及部署。

最后一點(diǎn),我們現(xiàn)在看到越來(lái)越多的中小型企業(yè)開(kāi)始借助大數(shù)據(jù)分析。這些公司通常預(yù)算有限,因此它們比較中意那些現(xiàn)成的可以直接用于數(shù)據(jù)分析的現(xiàn)成軟件解決方案。比如利用在線(xiàn)分析工具,來(lái)研究網(wǎng)站的使用現(xiàn)狀,優(yōu)化網(wǎng)站設(shè)置、改善網(wǎng)站在搜索引擎排名并購(gòu)買(mǎi)付費(fèi)引擎營(yíng)銷(xiāo)方案。

總結(jié)與展望:

在文章的結(jié)尾之處,我們想再次重申企業(yè)進(jìn)行大數(shù)據(jù)分析所必須注意的幾個(gè)問(wèn)題:

從公司管理的角度來(lái)看:

(1)公司應(yīng)同時(shí)關(guān)注數(shù)據(jù)體量和數(shù)據(jù)質(zhì)量;

(2)持續(xù)學(xué)習(xí)和培訓(xùn)能填平新分析技術(shù)和新商機(jī)之間的鴻溝;

(3)分析開(kāi)發(fā)團(tuán)隊(duì)?wèi)?yīng)該包括獨(dú)立的模型開(kāi)發(fā)團(tuán)隊(duì)和模型驗(yàn)證團(tuán)隊(duì);

(4)分析并不僅僅是模型開(kāi)發(fā)和驗(yàn)證,還包括模型的監(jiān)測(cè)和回溯測(cè)試。

從技術(shù)的角度企業(yè)應(yīng)該:

(1)考慮使用云服務(wù)來(lái)進(jìn)行大數(shù)據(jù)分析;

(2)應(yīng)該關(guān)注垂直式行業(yè)解決方案,謹(jǐn)慎選擇開(kāi)源軟件;

(3)對(duì)待外包分析要慎之又慎,最好能在企業(yè)內(nèi)部建立分析環(huán)境,并置于高層的管理之下。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)