如何避免大數(shù)據(jù)分析項目的失敗

責(zé)任編輯:cres

作者:Bob Violino

2018-01-02 10:27:12

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

大數(shù)據(jù)和分析項目可以是顛覆性的,它會使你具有洞察力來超越競爭對手,創(chuàng)造新的收入來源,更好地為客戶服務(wù)。大數(shù)據(jù)和分析項目也可能導(dǎo)致巨大的失敗,導(dǎo)致浪費大量的資金和時間,更不用說會失去那些有才華的技術(shù)人才,他們對管理層犯得錯誤感到失望和厭煩。

遵循以下六個最佳做法來超越競爭對手,創(chuàng)造新的收入來源,更好地為客戶服務(wù)。
 
大數(shù)據(jù)和分析項目可以是顛覆性的,它會使你具有洞察力來超越競爭對手,創(chuàng)造新的收入來源,更好地為客戶服務(wù)。
 
大數(shù)據(jù)和分析項目也可能導(dǎo)致巨大的失敗,導(dǎo)致浪費大量的資金和時間,更不用說會失去那些有才華的技術(shù)人才,他們對管理層犯得錯誤感到失望和厭煩。
 
如何避免大數(shù)據(jù)項目的失敗呢?從基本業(yè)務(wù)管理的角度來看,有一些最佳做法值得推薦:一定要獲得公司最高管理層的支持和認(rèn)同,確保技術(shù)投入所需的資金充足,并配備所需的專業(yè)技術(shù)和/或提供良好的培訓(xùn)。如果你不首先解決這些基本問題,那么其他的事情都不重要。
 
假設(shè)你已經(jīng)完成了這些基本的工作,那么在大數(shù)據(jù)分析項目中成功與失敗的區(qū)別就在于你如何處理大數(shù)據(jù)分析的技術(shù)問題和挑戰(zhàn)。你可以做以下幾點來確保大數(shù)據(jù)分析項目的成功。
 
1. 謹(jǐn)慎選擇你使用的大數(shù)據(jù)分析工具
 
許多技術(shù)上的失敗都源于這樣一個事實,即企業(yè)所購買和部署的產(chǎn)品,結(jié)果是完全不適合他們想要完成的工作。任何供應(yīng)商都可以將“大數(shù)據(jù)”或“高級分析方法”一詞放到產(chǎn)品描述中,以利用這些術(shù)語大肆炒作。
 
但產(chǎn)品在質(zhì)量和效果以及側(cè)重點上,都有很大的差別。因此,即使你選擇了一種技術(shù)含量高的產(chǎn)品,它也可能并不擅長做你真正需要完成的工作。
 
幾乎所有的大數(shù)據(jù)分析產(chǎn)品都具有一些基本的功能,比如數(shù)據(jù)轉(zhuǎn)換和存儲架構(gòu)(比如Hadoop和Apache Spark)。但是在大數(shù)據(jù)分析產(chǎn)品中也有很多細(xì)分領(lǐng)域,所以你必須為你的技術(shù)戰(zhàn)略實際所涉及到的領(lǐng)域來購買產(chǎn)品。這些領(lǐng)域包括過程挖掘、預(yù)測分析、實時解決方案、人工智能和商業(yè)智能控制面板等。
 
在決定購買任何大數(shù)據(jù)分析產(chǎn)品或存儲平臺之前,您需要清楚真正的業(yè)務(wù)需求和問題是什么,然后選擇那些能有效解決這些具體問題的產(chǎn)品。
 
例如,由于編譯海量數(shù)據(jù)集極具復(fù)雜性,您會選擇認(rèn)知大數(shù)據(jù)產(chǎn)品,這些產(chǎn)品會使用人工智能來分析非結(jié)構(gòu)化數(shù)據(jù)。但是,您不會將認(rèn)知大數(shù)據(jù)工具用于分析結(jié)構(gòu)化和標(biāo)準(zhǔn)化數(shù)據(jù),因為您可以從眾多分析產(chǎn)品中選擇一種產(chǎn)品進行部署,并且以更合理的價格實時獲得高質(zhì)量的洞察力,沃達豐電信公司大數(shù)據(jù)全局分析主管伊思雷爾·埃斯波西托(Israel Exposito)說。
 
埃斯波西托表示,在為你的生產(chǎn)環(huán)境選擇一款產(chǎn)品之前,至少要使用兩種產(chǎn)品來進行概念證明,這是很明智的。該產(chǎn)品還應(yīng)該能夠與您的相關(guān)企業(yè)平臺進行交互。
 
每個大數(shù)據(jù)分析工具都需要在后端系統(tǒng)中開發(fā)一個數(shù)據(jù)模型。這是該項目中最重要的部分。 所以,您需要確保系統(tǒng)集成商和業(yè)務(wù)領(lǐng)域相關(guān)專家能攜手合作,花些時間把工作第一次就做好。
 
務(wù)必記住,正確的數(shù)據(jù)應(yīng)隨時可以使用并翻譯成業(yè)務(wù)語言,這樣用戶就可以充分理解這些輸出結(jié)果,從而可以使用這些結(jié)果來推動商機或改進流程。
 
2. 確保工具易于使用
 
大數(shù)據(jù)和高級分析方法是很復(fù)雜的,但商業(yè)用戶用來訪問和理解這些數(shù)據(jù)的產(chǎn)品則并不需要很復(fù)雜。
 
為業(yè)務(wù)分析團隊提供簡單、有效的工具,用于數(shù)據(jù)發(fā)現(xiàn)、分析和可視化。
 
GoDaddy公司商業(yè)智能工具企業(yè)數(shù)據(jù)拓展專員莎倫·格雷夫斯(Sharon Graves)表示,對于域名注冊商GoDaddy來說,尋找合適的工具組合是很困難的。它必須易于快速可視化,并且能夠進行深入分析。GoDaddy公司能夠找到這些產(chǎn)品,讓商業(yè)用戶可以利用這些產(chǎn)品輕松找到適當(dāng)數(shù)據(jù),然后自行生成可視化效果。這就讓分析團隊有時間來處理更多的分析工作。
 
最重要的是,不要向非技術(shù)性的商業(yè)用戶提供程序員級別的工具。這樣他們會變得沮喪,可能會使用他們以前的工具,而這并不能滿足目前的工作(否則,你就不會實施大數(shù)據(jù)分析項目)。
 
3. 調(diào)整項目和數(shù)據(jù),使其符合實際業(yè)務(wù)需求
 
尋找錯誤的數(shù)據(jù)分析工作可能失敗的另一個原因是,因為這項工作最終變成用于尋找那些并不存在的問題的解決方案。這就是為什么你必須把你正在尋求解決的業(yè)務(wù)挑戰(zhàn)/需求擺在正確的分析問題上,信息服務(wù)提供商益博睿(Experian)全球數(shù)據(jù)實驗室的首席科學(xué)家Shanji Xiong說。
 
關(guān)鍵是要在項目早期就邀請具有很強分析背景的業(yè)務(wù)專家與數(shù)據(jù)科學(xué)家合作來定義問題。
 
這是益博睿公司自己的大數(shù)據(jù)分析項目的一個例子。在設(shè)計分析解決方案以打擊身份欺詐過程中,所面臨的挑戰(zhàn)可能是評估個人身份信息(PII)(如姓名、地址和社會保險號碼)是否合法?;蛘?,面臨的挑戰(zhàn)可能是評估使用一組身份信息來申請貸款的客戶是否是該身份信息的合法擁有者?;蛘哌@兩種挑戰(zhàn)可能同時存在。
 
Xiong說,第一個挑戰(zhàn)是“合成身份”問題,這需要在消費者或個人身份信息級別開發(fā)出一個分析模型來評估合成身份的風(fēng)險。第二個挑戰(zhàn)是欺詐申請問題,評估欺詐風(fēng)險的得分則需要在申請級別進行開發(fā)。益博睿公司必須理解這些是不同的問題,盡管它們可能最初被認(rèn)為是同一問題的不同表述,然后建立了正確的模型和分析方法來解決這些問題。
 
當(dāng)一組個人身份信息被提交給兩家金融機構(gòu)申請貸款時,通常要求對綜合風(fēng)險所返回的評分是相同的,但這通常不是欺詐申請評分的必要功能,Xiong說。
 
正確的算法必須應(yīng)用于正確的數(shù)據(jù),以獲取商業(yè)智能并做出準(zhǔn)確的預(yù)測。在建模過程中收集和包含相關(guān)數(shù)據(jù)集幾乎始終是比微調(diào)機器學(xué)習(xí)算法更重要,所以數(shù)據(jù)工作應(yīng)該被視為重中之重。
 
4. 建立一個數(shù)據(jù)湖,不要吝嗇帶寬
 
顧名思義,大數(shù)據(jù)涉及海量數(shù)據(jù)。在過去,很少有組織能夠存儲這么多數(shù)據(jù),更不用說對數(shù)據(jù)進行組織和分析了。但是現(xiàn)在,高性能存儲技術(shù)和大規(guī)模并行處理在云端和基于本地系統(tǒng)都得到廣泛使用。
 
然而,存儲本身是不夠的。您需要一種方法來處理為大數(shù)據(jù)分析所提供的不同類型的數(shù)據(jù)。這正是Apache的Hadoop軟件的功能,它可以對海量的和不同的數(shù)據(jù)集進行存儲和映射。這種存儲庫通常被稱為數(shù)據(jù)湖。一個實際的湖泊通常是由多個溪流匯集形成的,它包含許多植物、魚類和其他動物,而數(shù)據(jù)湖通常由多個數(shù)據(jù)源提供數(shù)據(jù),并包含許多類型的數(shù)據(jù)。
 
但數(shù)據(jù)湖不應(yīng)該成為數(shù)據(jù)的垃圾場。亞利桑那州立大學(xué)(Arizona State University)計算機運算研究主任杰伊•埃切斯(Jay Etchings)表示,你需要考慮如何來匯總數(shù)據(jù),并以一種有意義的方式來擴展屬性。數(shù)據(jù)可以是完全不同的,但是如何使用像MapReduce和Apache Spark這樣的工具對數(shù)據(jù)進行轉(zhuǎn)換用于分析,這應(yīng)該使用一個可靠的數(shù)據(jù)架構(gòu)來完成。
 
建立一個數(shù)據(jù)湖,在這個數(shù)據(jù)湖中,數(shù)據(jù)的攝入、索引和標(biāo)準(zhǔn)化是大數(shù)據(jù)策略精心規(guī)劃的組成部分。埃切斯說,如果沒有清晰的理解和明確的藍圖,大多數(shù)數(shù)據(jù)為主導(dǎo)的項目注定要失敗。
 
同樣,擁有足夠的帶寬是至關(guān)重要的,否則,數(shù)據(jù)不會從不同的數(shù)據(jù)源移動到數(shù)據(jù)湖中,并且商業(yè)用戶也不會很快獲得效果。埃切斯說,要實現(xiàn)擁有海量數(shù)據(jù)資源,不僅需要每秒能夠處理數(shù)百萬I/O(IOPS)的快速磁盤,而且還需要對節(jié)點和處理引擎進行互聯(lián),可以隨時訪問數(shù)據(jù)。
 
從社交媒體發(fā)展趨勢到流量路由,速度對于實時分析尤其重要。因此,要在最快的互連環(huán)境中創(chuàng)建你的數(shù)據(jù)湖。
 
5. 在大數(shù)據(jù)的方方面面進行安全性設(shè)計
 
計算基礎(chǔ)架構(gòu)組件的高度異質(zhì)性大大加速了組織從數(shù)據(jù)中獲取有用見解的能力。但也有一個缺點,即系統(tǒng)的管理和安全要復(fù)雜得多,埃切斯說。由于涉及海量數(shù)據(jù)以及大多數(shù)大數(shù)據(jù)分析系統(tǒng)的任務(wù)極為重要,未能在保護系統(tǒng)和數(shù)據(jù)方面采取足夠的預(yù)防措施,那么這在很大程度上是自找麻煩。
 
公司所收集、存儲、分析和共享的大部分?jǐn)?shù)據(jù)都是客戶信息,其中一些是個人的和可以識別的信息。如果這些數(shù)據(jù)落入不法分子之手,結(jié)果可想而知:公司會因訴訟而導(dǎo)致金錢損失、可能會受到監(jiān)管部門的罰款、品牌和聲譽受損,以及客戶的不滿。
 
您的安全措施應(yīng)該包括部署基本的企業(yè)工具:實用的數(shù)據(jù)加密、身份和訪問管理以及網(wǎng)絡(luò)安全。但是,您的安全措施還應(yīng)該包括有關(guān)正確訪問和使用數(shù)據(jù)的培訓(xùn)和策略實施。
 
6. 將數(shù)據(jù)管理和質(zhì)量放在首位
 
確保良好的數(shù)據(jù)管理和質(zhì)量應(yīng)該成為所有大數(shù)據(jù)分析項目的標(biāo)志,否則失敗的可能性要大得多。
 
您需要實施控制措施,以確保數(shù)據(jù)是最新的、準(zhǔn)確的并能夠及時交付。作為大數(shù)據(jù)項目的一部分,GoDaddy公司實施了警報功能,如果數(shù)據(jù)更新失敗或超時,則會通知管理人員。此外,GoDaddy公司還對關(guān)鍵指標(biāo)實施了數(shù)據(jù)質(zhì)量檢查,當(dāng)這些指標(biāo)與期望值不一致時發(fā)送警報。
 
確保數(shù)據(jù)質(zhì)量和治理的一個重要內(nèi)容就是雇傭熟練的數(shù)據(jù)管理專業(yè)人員,包括數(shù)據(jù)管理主管或其他管理人員來監(jiān)督這些領(lǐng)域。鑒于這些項目的戰(zhàn)略重要性,企業(yè)擁有對數(shù)據(jù)管理、操作、治理和策略的數(shù)據(jù)所有權(quán)是極為必要的。
 
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號