數(shù)據(jù)面面觀:關(guān)于數(shù)據(jù)挖掘和數(shù)據(jù)分析

責(zé)任編輯:editor007

作者:王懿Lucien

2016-04-12 21:17:47

摘自:類猿汪

評(píng)估模型:通過(guò)提取的特征,定義一系列的可用模型,使得從數(shù)據(jù)來(lái)源到標(biāo)簽再到特征以及畫像的數(shù)據(jù)通過(guò)模型更直觀的展現(xiàn)出來(lái);

數(shù)據(jù)面面觀:關(guān)于數(shù)據(jù)挖掘和數(shù)據(jù)分析

  1、

很多關(guān)于數(shù)據(jù)挖掘的帖子和文章都在強(qiáng)調(diào)工具、算法和架構(gòu)等,但其實(shí)這些都不是數(shù)據(jù)挖掘的核心,數(shù)據(jù)挖掘的最重要的環(huán)節(jié)如下:

數(shù)據(jù)來(lái)源:通過(guò)無(wú)論是公開(kāi)的數(shù)據(jù)還是合作方式、第三方的方式獲得數(shù)據(jù);

獲取標(biāo)簽:對(duì)標(biāo)的物無(wú)論是用戶、商品、文章分析,以獲取足夠定義這些標(biāo)的物的標(biāo)簽,并對(duì)標(biāo)簽進(jìn)行指標(biāo)化和定義權(quán)重,通過(guò)這些標(biāo)簽對(duì);

定義特征:通過(guò)標(biāo)的物的個(gè)體畫像以及標(biāo)的物間的關(guān)系定義個(gè)體和整體的特征;

評(píng)估模型:通過(guò)定義的特征定義并評(píng)估一系列數(shù)據(jù)模型;

應(yīng)用模型:模型數(shù)據(jù)可視化、基于有效模型數(shù)據(jù)價(jià)值應(yīng)用。

2、

為什么把數(shù)據(jù)挖掘和數(shù)據(jù)分析放在一起說(shuō),是因?yàn)閿?shù)據(jù)挖掘本身是一個(gè)數(shù)據(jù)應(yīng)用化的過(guò)程,而應(yīng)用化的過(guò)程某種意義上就是一個(gè)數(shù)據(jù)分析的過(guò)程,而這個(gè)數(shù)據(jù)分析可以是人為定義的、AI人工智能輔助的等等。

所以,我們可以暫且這樣定數(shù)據(jù)挖掘和數(shù)據(jù)分析的關(guān)系:通過(guò)不斷優(yōu)化的數(shù)據(jù)分析方法,并利用數(shù)據(jù)挖掘才能夠得出數(shù)據(jù)應(yīng)用價(jià)值的最大化的結(jié)果。

數(shù)據(jù)挖掘是數(shù)據(jù)價(jià)值結(jié)果導(dǎo)向的過(guò)程集合,而數(shù)據(jù)應(yīng)用價(jià)值到底有多大?者就是通過(guò)數(shù)據(jù)分析來(lái)評(píng)估的,其來(lái)自于數(shù)據(jù)分析的過(guò)程以及得出的結(jié)論。

3、

數(shù)據(jù)挖掘并不局限。就狹義而言,它就是一個(gè)在海量數(shù)據(jù)中挖掘數(shù)據(jù)價(jià)值的過(guò)程;而就廣義而言,只要是有數(shù)據(jù)來(lái)源的,并能夠通過(guò)數(shù)據(jù)分析方法論得到一數(shù)據(jù)價(jià)值結(jié)果為導(dǎo)向的過(guò)程,都可以稱作數(shù)據(jù)挖掘。

4、

產(chǎn)品運(yùn)營(yíng)經(jīng)常會(huì)涉及到數(shù)據(jù)分析,從某種意義上而言,也是一個(gè)以數(shù)據(jù)價(jià)值為結(jié)果導(dǎo)向的過(guò)程:

數(shù)據(jù)來(lái)源:產(chǎn)品運(yùn)營(yíng)過(guò)程中的產(chǎn)生和收集的一系列數(shù)據(jù),如圖:

數(shù)據(jù)面面觀:關(guān)于數(shù)據(jù)挖掘和數(shù)據(jù)分析

獲取標(biāo)簽:通過(guò)基本信息和一系列行為數(shù)據(jù)獲取分析得到關(guān)鍵標(biāo)簽,并定義標(biāo)簽的權(quán)重和指標(biāo),以對(duì)基本用戶、商品、文章等等標(biāo)的物進(jìn)行畫像;

定義特征:通過(guò)標(biāo)的物個(gè)體的統(tǒng)計(jì)數(shù)據(jù)和畫像分析個(gè)體間關(guān)系的特征和整體性特征,比如電商類用戶就可以根據(jù)性別和消費(fèi)能力、消費(fèi)周期等標(biāo)簽指標(biāo),定義其相應(yīng)的特征;再比如對(duì)UV、PV等一系列數(shù)據(jù)進(jìn)行整體性的特征判斷,以判斷產(chǎn)品本身目前的運(yùn)營(yíng)特征和情況;等等...

評(píng)估模型:通過(guò)提取的特征,定義一系列的可用模型,使得從數(shù)據(jù)來(lái)源到標(biāo)簽再到特征以及畫像的數(shù)據(jù)通過(guò)模型更直觀的展現(xiàn)出來(lái);

應(yīng)用模型:比如招聘網(wǎng)站按照不同職能區(qū)分的用戶對(duì)于網(wǎng)站的使用情況,產(chǎn)品對(duì)于90后用戶的運(yùn)營(yíng)情況等,以在某種程度上幫助改進(jìn)產(chǎn)品和提升以及驗(yàn)證運(yùn)營(yíng)工作對(duì)于目前產(chǎn)品運(yùn)營(yíng)的有效性。

5、

舉個(gè)商業(yè)化應(yīng)用的例子,比如EverString這個(gè)產(chǎn)品,去年年底剛剛?cè)诹薆輪65m美刀。這是一家通過(guò)大數(shù)據(jù)技術(shù)提供B2BMarketing領(lǐng)域企業(yè)智能解決方案的公司,通過(guò)挖掘企業(yè)數(shù)據(jù)與結(jié)合企業(yè)CRM,并建立模型,再利用這些模型幫助企業(yè)來(lái)預(yù)測(cè)誰(shuí)是他們下一個(gè)客戶。以下是對(duì)于這家公司業(yè)務(wù)的分析:

數(shù)據(jù)來(lái)源:通過(guò)爬蟲(chóng)來(lái)抓取全網(wǎng)數(shù)據(jù)并結(jié)合企業(yè)CRM獲取與企業(yè)相關(guān)的數(shù)據(jù),EverString自稱有1100萬(wàn)家企業(yè)的海量數(shù)據(jù)庫(kù);

獲取標(biāo)簽:它們擁有豐富的公司標(biāo)簽,以及合理的指標(biāo)與權(quán)重;

定義特征:與公司業(yè)務(wù)和規(guī)模相關(guān)的特征,更加個(gè)性化并增加精準(zhǔn)性;

評(píng)估模型:定義無(wú)論是公司層面的營(yíng)銷運(yùn)營(yíng)模型,還是基于公司業(yè)務(wù)本身的數(shù)據(jù)模型,以關(guān)注數(shù)據(jù)應(yīng)用價(jià)值和更加符合業(yè)務(wù)應(yīng)用價(jià)值效果的數(shù)據(jù)模型;

應(yīng)用模型:將模型應(yīng)用在整體的業(yè)務(wù)流程當(dāng)中,比如通過(guò)對(duì)歷史大量積累的數(shù)據(jù)進(jìn)行分析和建模,從而對(duì)未來(lái)事件的決策的預(yù)測(cè)。

6、

關(guān)于數(shù)據(jù)分析,并不可以簡(jiǎn)單理解為對(duì)于對(duì)于數(shù)據(jù)進(jìn)行定量、定性的分析和得出一個(gè)可用的數(shù)據(jù)結(jié)果的過(guò)程集合,這也是我為什么把數(shù)據(jù)挖掘和數(shù)據(jù)分析放在一起說(shuō)的原因。數(shù)據(jù)分析一定是伴隨著數(shù)據(jù)從采集到定義,再到應(yīng)用,最后通過(guò)分析數(shù)據(jù)應(yīng)用的價(jià)值,并不斷自我過(guò)程優(yōu)化。

從某種意義上而言,數(shù)據(jù)分析會(huì)用到的很多工具。我們會(huì)發(fā)現(xiàn)無(wú)論是用GA、百度統(tǒng)計(jì)、友盟等等,它們同樣在做著:從采集數(shù)據(jù)、獲取標(biāo)簽(機(jī)型、地理位置、用戶畫像等)、定義特征(轉(zhuǎn)換率、客單價(jià)等)和模型(漏斗模型等)到應(yīng)用模型(可視化圖表等)。這個(gè)過(guò)程同樣可以理解為一個(gè)數(shù)據(jù)分析方法結(jié)合數(shù)據(jù)挖掘的過(guò)程,即對(duì)可獲取的數(shù)據(jù)進(jìn)行價(jià)值挖掘和應(yīng)用的過(guò)程。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)