亚洲国产综合一区第一页,pos收銀軟件

一線專家談?wù)劊簲?shù)據(jù)挖掘在實(shí)際領(lǐng)域中的那些事兒

責(zé)任編輯：editor005

作者：佘偉

2016-05-16 14:04:49

摘自：InfoQ

當(dāng)特征提取完了之后，我們會采用分類算法來訓(xùn)練模型，最終得到故障診斷和故障預(yù)測的結(jié)果。當(dāng)特征提取完了之后，我們會采用分類算法來訓(xùn)練模型，最終得到故障診斷和故障預(yù)測的結(jié)果。

大家好，我是明略數(shù)據(jù)的佘偉。今天非常榮幸能給大家分享明略數(shù)據(jù)在大數(shù)據(jù)挖掘方面做的一些事情。

企業(yè)中的數(shù)據(jù)挖掘

我們先來看看在企業(yè)中數(shù)據(jù)挖掘都是怎么做的，以及有著哪些問題。

數(shù)據(jù)挖掘

上圖中的左邊是SPSS在1999年提出的《跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程》，在圖中定義了數(shù)據(jù)挖掘的6個(gè)步驟。雖然這個(gè)圖已經(jīng)提出有10幾年了，但是在大數(shù)據(jù)環(huán)境下，這個(gè)流程依然適用。

理解商業(yè)問題。這需要大數(shù)據(jù)科學(xué)家和行業(yè)專業(yè)，以及客戶的業(yè)務(wù)專家一起來明確問題。這是整個(gè)大數(shù)據(jù)挖掘中最關(guān)鍵的一步。如果不理解業(yè)務(wù)就貿(mào)然開做，最后的項(xiàng)目一定是失敗的。

分析數(shù)據(jù)。當(dāng)明確了業(yè)務(wù)問題之后，我們就需要去分析數(shù)據(jù)，看看到底哪些數(shù)據(jù)能夠支撐我們的業(yè)務(wù)，用哪些數(shù)據(jù)去解決問題。在這個(gè)階段，我們可能發(fā)現(xiàn)數(shù)據(jù)不足，或者數(shù)據(jù)質(zhì)量太差，這個(gè)時(shí)候就可能要尋求第三方數(shù)據(jù)的幫助，或者規(guī)劃如何去采集更多的數(shù)據(jù)了。

數(shù)據(jù)挖掘。前兩步都是在做數(shù)據(jù)挖掘前的準(zhǔn)備，當(dāng)業(yè)務(wù)明略，數(shù)據(jù)可用時(shí)，我們就正式開始數(shù)據(jù)挖掘了。

3.1提取特征

首先我們要對數(shù)據(jù)進(jìn)行處理，從數(shù)據(jù)中提取特征。這是數(shù)據(jù)挖掘非常關(guān)鍵的一步，特征的好壞直接影響最終模型的效果。在數(shù)據(jù)挖掘過程中，算法其實(shí)并不是最主要的因素，影響效果最直接的因素就是特征。

良好的特征需要有非常好的區(qū)分度，只有這些特征，才能很好的去解決問題。舉個(gè)例子，我們要辨別一個(gè)西瓜是好是壞，可能顏色是一個(gè)特征，條紋，重量，瓜蒂也是特征。但是，大家都知道西瓜一般都是綠色的，所以用綠色去作為判別西瓜好壞是沒有區(qū)分度的。而條紋，重量，瓜蒂是判別一個(gè)西瓜是好是壞非常重要的因素，因此他們是好特征。

我們在解決不同問題時(shí)，所用的特征是不一樣的?？赡茉诮鉀Q某個(gè)問題有用的特征在解決另外一個(gè)問題時(shí)就不具備區(qū)分度。因此，我們必須緊密的聯(lián)系業(yè)務(wù)，去選擇合適的特征。

在提取特征時(shí)，因?yàn)槲覀兪谴髷?shù)據(jù)挖掘，所以要使用大數(shù)據(jù)技術(shù)去從原始數(shù)據(jù)中提取特征。這需要大數(shù)據(jù)科學(xué)家有著非常豐富的大數(shù)據(jù)處理技能。

3.2建立模型

當(dāng)特征提取完畢后，我們就需要去應(yīng)用算法建立模型了。在實(shí)際的建模過程中，由于數(shù)據(jù)量過于龐大，算法訓(xùn)練過程往往十分緩慢，如何加速算法計(jì)算速度，是一個(gè)非常突出的問題。

此外，由于傳統(tǒng)的數(shù)據(jù)挖掘算法都是針對小數(shù)據(jù)集的，當(dāng)數(shù)據(jù)規(guī)模到了一臺服務(wù)器無法處理的程度，傳統(tǒng)的數(shù)據(jù)挖掘算法就不再使用。此時(shí)，我們需要有新的數(shù)據(jù)挖掘技術(shù)來支持大數(shù)據(jù)上的數(shù)據(jù)挖掘。

當(dāng)模型建立完成之后，我們需要對模型進(jìn)行評估，來確定模型效果。此時(shí)最重要的是建立模型的評價(jià)指標(biāo)。這個(gè)評價(jià)指標(biāo)必須是要結(jié)合業(yè)務(wù)來建立的。當(dāng)模型效果不佳時(shí)，我們要回到特征提取，建模過程來不斷的迭代，甚至可能要重新分析業(yè)務(wù)和數(shù)據(jù)。

3.3后期工作

當(dāng)一個(gè)效果非常好的模型建立完畢了，我們的數(shù)據(jù)挖掘就結(jié)束了嗎?傳統(tǒng)的數(shù)據(jù)挖掘軟件往往只做到模型建立這一步，但是在模型建立完成之后還有很多工作要做。我們?nèi)绾螌⒛Ｐ驮谏a(chǎn)系統(tǒng)中使用起來，如何去管理、運(yùn)行、維護(hù)、擴(kuò)展模型。

我們先來看看DataInsight對業(yè)務(wù)的支持。

可以將DataInsight看做一個(gè)模型運(yùn)行的平臺。他提供一套分布式的模型執(zhí)行引擎。所有通過DataInsight建立的模型都可以在這個(gè)分布式執(zhí)行引擎中運(yùn)行。

在執(zhí)行引擎之上，DataInsight還提供了多個(gè)系統(tǒng)供不同業(yè)務(wù)使用。我們有支持實(shí)時(shí)分析業(yè)務(wù)的實(shí)時(shí)分析系統(tǒng)，有支持離線批處理業(yè)務(wù)的離線分析系統(tǒng)，還有規(guī)則引擎系統(tǒng)，可以讓用戶的業(yè)務(wù)人員去通過規(guī)則對模型進(jìn)行修正。

用戶需要針對不同的業(yè)務(wù)去建立不同的模型，這個(gè)建模過程可以由用戶自己完成，也可以由明略的大數(shù)據(jù)科學(xué)家去完成。建立好的模型以插件的形式插入到DataInsight中去，方便模型的管理和擴(kuò)展。

用戶的業(yè)務(wù)系統(tǒng)會通過API和DataInsight進(jìn)行通信，來運(yùn)行或者更新DataInsight中插入的模型。

一個(gè)典型的DataInsight模型運(yùn)行過程如下：用戶通過API調(diào)用DataInsight，在請求中指定模型，模型的輸入和模型的輸出。DataInsight會將數(shù)據(jù)從數(shù)據(jù)源中取出，送入模型，并且將模型分成多個(gè)步驟，并行化的在分布式執(zhí)行引擎中運(yùn)行。當(dāng)模型運(yùn)行完畢后，結(jié)果將送入用戶指定的目的數(shù)據(jù)庫中。這樣，用戶的應(yīng)用系統(tǒng)就可以直接從目的數(shù)據(jù)庫中獲得模型運(yùn)行的最新結(jié)果了。

DataInsight中將解決客戶業(yè)務(wù)問題的模型成為業(yè)務(wù)模型，或者應(yīng)用。DataInsight對業(yè)務(wù)模型也進(jìn)行了一定層次的抽象。每個(gè)業(yè)務(wù)模型都是由若干步驟組成的。每個(gè)步驟被稱作一個(gè)算子。

上圖是一個(gè)文本分類的業(yè)務(wù)模型，其解決的問題是將若干文本進(jìn)行分類。例如我們有很多文章，我們要對每篇文章的情感進(jìn)行分類，就可以使用這個(gè)模型。

我們將文本分類模型抽象為很多算子的組合。每個(gè)算子都是對數(shù)據(jù)進(jìn)行了某種轉(zhuǎn)換，將一組輸入轉(zhuǎn)化為一組輸出。這個(gè)轉(zhuǎn)化過程可能是對數(shù)據(jù)進(jìn)行的預(yù)處理，也可能是某種機(jī)器學(xué)習(xí)算法。

每個(gè)算子都有輸入和輸出，且算子的輸出可以作為另外一個(gè)算子的輸入。這樣，整個(gè)業(yè)務(wù)模型就抽象成了一個(gè)有向無環(huán)圖(DAG)。DataInsight在執(zhí)行模型時(shí)，會去調(diào)度模型中的每個(gè)算子，將適合分布式計(jì)算的算子送入不同的執(zhí)行容器中去運(yùn)行，加速了整個(gè)模型的計(jì)算速度。

　　DataInsight總體的體系架構(gòu)見下圖：

(點(diǎn)擊放大圖像)

下面我們介紹一下明略在各個(gè)領(lǐng)域中的一些案例。由于時(shí)間關(guān)系，我這里只舉兩個(gè)案例。

一是精準(zhǔn)營銷方面。明略是從秒針系統(tǒng)拆分出來的，秒針系統(tǒng)是一家以互聯(lián)網(wǎng)精準(zhǔn)營銷為主要業(yè)務(wù)的公司，因此明略在精準(zhǔn)營銷方面有著接近10年的積累。

首先，明略的大數(shù)據(jù)平臺MDP會將企業(yè)各種自由數(shù)據(jù)，包括CRM數(shù)據(jù)、交易行為數(shù)據(jù)以及官網(wǎng)數(shù)據(jù)等，和第三方數(shù)據(jù)一起收集起來，并對這些數(shù)據(jù)進(jìn)行關(guān)聯(lián)和打通，一起存儲到大數(shù)據(jù)平臺MDP中去。

我們針對企業(yè)不同的業(yè)務(wù)，建立多個(gè)模型，例如智能推薦模型，用戶畫像模型，消費(fèi)預(yù)測模型，商圈聚類模型等等，這些模型作為插件插入到我們的大數(shù)據(jù)挖掘平臺DataInsight中去。

我們可以將原始數(shù)據(jù)從MDP中取出，進(jìn)過DataInsight中模型的計(jì)算之后，生成最終的結(jié)果數(shù)據(jù)，結(jié)果數(shù)據(jù)將送入用戶畫像系統(tǒng)和推薦系統(tǒng)的離線部分。

用戶的推薦系統(tǒng)分為在線和離線兩個(gè)部分，離線推薦的結(jié)果就是DataInsight中計(jì)算出來的結(jié)果。在線推薦系統(tǒng)將會接收一個(gè)在線的推薦請求，通過客戶畫像系統(tǒng)和離線推薦結(jié)果，并結(jié)合當(dāng)時(shí)的一些場景，共同計(jì)算出最終向用戶推薦的物品。

明略的精準(zhǔn)營銷系統(tǒng)已經(jīng)應(yīng)用到了個(gè)性化推薦、精準(zhǔn)營銷、用戶洞察、廣告投放等多個(gè)領(lǐng)域，并取得了良好的效果。

智能推薦算法

和傳統(tǒng)的協(xié)同過濾算法不一樣，這個(gè)算法是采用了分類的思想，通過分類的方法來實(shí)現(xiàn)推薦的。

首先，在進(jìn)行推薦之前，我們必須明確推薦的目標(biāo)。那就是向用戶推薦用戶感興趣的物品。這里的物品可以是商品，也可以是廣告，甚至是文章、電影、音樂等等。

然后我們需要去尋找解決這個(gè)問題所需的數(shù)據(jù)。我們有物品內(nèi)容數(shù)據(jù)庫，用戶CRM數(shù)據(jù)庫，以及用戶行為數(shù)據(jù)。

解決了目標(biāo)和數(shù)據(jù)之后，我們就需要采集一批有標(biāo)注的樣本。因?yàn)槭遣捎玫姆诸愃惴?，這是有監(jiān)督的算法，所以標(biāo)注樣本是建模的第一步工作。標(biāo)注就是通過人工來判定用戶是否對某個(gè)物品感興趣。

標(biāo)注問題解決后，我們就需要從數(shù)據(jù)中提取特征。我們的特征分為3類：物品自身屬性，比如我們推薦的是手機(jī)，手機(jī)型號，手機(jī)價(jià)格，手機(jī)顏色都是物品的自身屬性。其次，我們要提取人的屬性，比如人的性別、年齡、收入、教育程度一類。最后，我們還需要知道人和物品的交互關(guān)系，他是瀏覽過商品還是加入過購物車，還是點(diǎn)擊過商品，甚至購買過該商品。除了和推薦的商品之間的關(guān)系之外，我們還可以將用戶和其他商品之間的關(guān)系也作為特征。

這樣，我們就可以通過分類算法去建立模型了。常用的分類算法我們都可以嘗試，諸如GBDT，邏輯回歸，SVM等等。

當(dāng)模型建立完畢之后，我們就可以得到分類結(jié)果了。分類結(jié)果是某用戶對某商品是否感興趣，以及感興趣的程度。感興趣的程度我們可以通過概率來表示。

有了分類結(jié)果還不是我們最終的推薦結(jié)果。我們根據(jù)分類概率對結(jié)果進(jìn)行排序，最后選出TopK個(gè)結(jié)果作為最終結(jié)果返回。

設(shè)備診斷方案

我們的第二個(gè)案例是有關(guān)設(shè)備診斷方案的。

我們知道，工業(yè)4.0是目前比較火熱的一個(gè)話題。而設(shè)備診斷正是工業(yè)4.0中非常重要的一個(gè)應(yīng)用。

設(shè)備診斷又分為故障診斷和故障預(yù)測兩大類。故障診斷是當(dāng)一個(gè)設(shè)備出現(xiàn)故障，我們需要辨別該故障的類型。故障預(yù)測是我們要預(yù)測出某個(gè)設(shè)備在未來會不會出現(xiàn)故障。這是兩個(gè)截然不同的問題，但是處理的方法是類似的。

故障診斷和故障預(yù)測已經(jīng)在多個(gè)行業(yè)中得到應(yīng)用，并且已經(jīng)取得了非常突出的效果。

明略的故障診斷方案如下圖：

首先，各種設(shè)備的數(shù)據(jù)通過ETL匯聚進(jìn)大數(shù)據(jù)平臺中去。這些數(shù)據(jù)包括傳感器實(shí)時(shí)數(shù)據(jù)，設(shè)備歷史數(shù)據(jù)，時(shí)間歷史數(shù)據(jù)等等。

然后，在DataInsight中建立故障診斷和故障預(yù)測模型，來對原始的數(shù)據(jù)進(jìn)行分析，并得到診斷和預(yù)測結(jié)果。

DataInsight中的模型會部署到生產(chǎn)系統(tǒng)中去，通過API和故障診斷和故障預(yù)測應(yīng)用進(jìn)行交互，提供最終的分析結(jié)果給到應(yīng)用，在應(yīng)用中根據(jù)分析結(jié)果進(jìn)行各種統(tǒng)計(jì)和可視化的展現(xiàn)。

進(jìn)行故障診斷和故障預(yù)測建模有兩種方式，其一是傳統(tǒng)的方式，其二是通過深度學(xué)習(xí)的方式。

這個(gè)過程中首先我們要對故障進(jìn)行標(biāo)注。對于故障診斷，我們要標(biāo)注的是何種類型的故障，對于故障預(yù)測，我們要標(biāo)注的是有沒有發(fā)生故障。標(biāo)注的工作是專業(yè)性極強(qiáng)的工作，一般需要用戶的專家來進(jìn)行標(biāo)注。

對于傳統(tǒng)方法而言，最復(fù)雜的部分是特征選取。上文我們也講到，只有那些有強(qiáng)區(qū)分度的特征才能有效的支持最終的模型。所以，需要由業(yè)務(wù)專家來指導(dǎo)如何從原始數(shù)據(jù)中提取特征。這就需要將業(yè)務(wù)專家的經(jīng)驗(yàn)程序化，將人的知識變?yōu)闄C(jī)器能夠處理的方法。這是非常困難的。

當(dāng)特征提取完了之后，我們會采用分類算法來訓(xùn)練模型，最終得到故障診斷和故障預(yù)測的結(jié)果。

深度學(xué)習(xí)

在傳統(tǒng)方法之外，我們還可以通過深度學(xué)習(xí)的方法來進(jìn)行故障的診斷和預(yù)測，深度學(xué)習(xí)方法示意圖如下：

當(dāng)特征提取完了之后，我們會采用分類算法來訓(xùn)練模型，最終得到故障診斷和故障預(yù)測的結(jié)果。

深度學(xué)習(xí)

在傳統(tǒng)方法之外，我們還可以通過深度學(xué)習(xí)的方法來進(jìn)行故障的診斷和預(yù)測，深度學(xué)習(xí)方法示意圖如下：

比起傳統(tǒng)的方法，故障標(biāo)注這一步是省不掉的，因?yàn)槲覀冇玫倪€是一個(gè)有監(jiān)督的方法，這個(gè)方法必須要有一批標(biāo)注好的樣本。

和傳統(tǒng)方法不一樣的是，我們直接將樣本送入深度學(xué)習(xí)算法，常用的如卷積神經(jīng)網(wǎng)絡(luò)去進(jìn)行訓(xùn)練，來得到最終的故障診斷和預(yù)測的結(jié)果。

相比傳統(tǒng)方法，深度學(xué)習(xí)方法省卻了特征提取的過程。我們通過深度學(xué)習(xí)算法直接從原始數(shù)據(jù)中學(xué)習(xí)，省卻了專家指導(dǎo)的過程。深度學(xué)習(xí)方法甚至能夠?qū)W習(xí)到專家所不知道，或者在專家潛意識內(nèi)但無法表達(dá)出來的特征。通過深度學(xué)習(xí)算法出來的模型，其效果往往好于傳統(tǒng)方法的模型。

但是，深度學(xué)習(xí)算法對數(shù)據(jù)量的要求非常大。只有有大量訓(xùn)練樣本才能使用深度學(xué)習(xí)。這在現(xiàn)實(shí)的工作中可能是一個(gè)問題。

Q&A

Q1：數(shù)據(jù)互聯(lián)行業(yè)主要是指哪些業(yè)務(wù)?

A1：數(shù)據(jù)互聯(lián)是明略將第三方數(shù)據(jù)引入到企業(yè)中和企業(yè)自有數(shù)據(jù)結(jié)合起來去做數(shù)據(jù)挖掘的業(yè)務(wù),這個(gè)業(yè)務(wù)需要對第三方數(shù)據(jù)如何與企業(yè)數(shù)據(jù)融合，去進(jìn)行數(shù)據(jù)挖掘有比較深的理解.

簡單的說，就是幫助用戶分析需要什么樣的數(shù)據(jù)，以及從何處去獲得這些數(shù)據(jù)，外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)如何打通，如何去數(shù)據(jù)挖掘.

Q2：請問領(lǐng)域知識和數(shù)據(jù)專業(yè)知識哪個(gè)在實(shí)際工作中起的作用更大?

A2：領(lǐng)域知識和數(shù)據(jù)專業(yè)知識應(yīng)用的場景不一樣。在進(jìn)行數(shù)據(jù)挖掘之前，我們首先需要有領(lǐng)域知識。必須明白要解決的問題是什么。只有有了領(lǐng)域知識，并且有數(shù)據(jù)知識，才能把業(yè)務(wù)轉(zhuǎn)化為數(shù)據(jù)挖掘的問題，在進(jìn)行數(shù)據(jù)挖掘過程中，數(shù)據(jù)挖掘知識可能是更關(guān)鍵的，因?yàn)槟阋廊绾稳ソ鉀Q這個(gè)問題。但是，進(jìn)行數(shù)據(jù)挖掘時(shí)，還必須根據(jù)業(yè)務(wù)對模型進(jìn)行調(diào)整。

剛才我也說了，模型調(diào)優(yōu)必須建立合理的評價(jià)指標(biāo)。這個(gè)評價(jià)指標(biāo)根據(jù)不同的業(yè)務(wù)可能是不一樣的。所以必須有業(yè)務(wù)知識才能知道如何去調(diào)優(yōu)，才能知道什么樣的模型是符合業(yè)務(wù)需要的，所以，在實(shí)際的數(shù)據(jù)挖掘過程中，領(lǐng)域知識和數(shù)據(jù)挖掘?qū)I(yè)知識都是非常重要的，如果缺乏了任何一種，可能都很難取得比較好的效果。另外大數(shù)據(jù)挖掘中大數(shù)據(jù)處理能力也很重要，如果不會處理大數(shù)據(jù)，或者沒有良好的編程能力，也是很難做好的.

Q3：請問一下明略大數(shù)據(jù)在特征工程上有哪些比較好的經(jīng)驗(yàn)?zāi)?

A3：其實(shí)特征工程是一個(gè)非常dirty的活，需要大量的嘗試性工作，明略的經(jīng)驗(yàn)就是，在做特征工程時(shí)，了解業(yè)務(wù)是第一位，然后需要深入的去調(diào)查客戶的每一張表，搞明白每一張表的每一個(gè)字段，以及字段間的關(guān)聯(lián)關(guān)系，我們在實(shí)際工作中，經(jīng)常要調(diào)研幾百張表去找到我們需要的數(shù)據(jù)，此外，作為一個(gè)合格的數(shù)據(jù)挖掘人員，或者數(shù)據(jù)科學(xué)家，敏銳力非常重要，能夠結(jié)合業(yè)務(wù)知道可以從數(shù)據(jù)中提取哪些特征。特征提取出來之后，是否是一個(gè)好的特征其實(shí)是不知道的。我們可以大膽的嘗試，多選取一些特征過來。然后在通過特征選擇去進(jìn)行篩選。特征工程是實(shí)際建模中最耗人力的過程。我們建模大概70-80%的時(shí)間都耗費(fèi)在這個(gè)上面。

Q4：請問在進(jìn)行數(shù)據(jù)挖掘之前的怎么解決數(shù)據(jù)質(zhì)量問題?

A4：坦白的說，數(shù)據(jù)質(zhì)量也是困擾我們的問題，目前我們遇到的客戶，坦白的說數(shù)據(jù)很多都是碎片化的?？赡苁且?yàn)橹八麄兒雎粤四承?shù)據(jù)的收集，或者他們的數(shù)據(jù)只是總體樣本的一小部分，對于第一種客戶，我們會幫助他們制定如何去收集更多的數(shù)據(jù)，只有數(shù)據(jù)有了積累，數(shù)據(jù)質(zhì)量問題才會解決。對于第二種客戶，我們會幫助引入第三方數(shù)據(jù)，用第三方數(shù)據(jù)來補(bǔ)充客戶現(xiàn)有的數(shù)據(jù)，大數(shù)據(jù)的數(shù)據(jù)質(zhì)量差是有目共睹的，但是，正是由于數(shù)據(jù)量大，數(shù)據(jù)類型多，我們才能從大數(shù)據(jù)的沙子中挖到金子。如果傳統(tǒng)數(shù)據(jù)是富礦石，大數(shù)據(jù)就是貧礦石，大數(shù)據(jù)數(shù)據(jù)只能以量去取代質(zhì)。

Q5：目前未回答問題中排名最高的是這個(gè)：二分類分類算法中，負(fù)面情況占比很小，訓(xùn)練集數(shù)據(jù)負(fù)面數(shù)據(jù)如何按比例分?訓(xùn)練集需要調(diào)高負(fù)面數(shù)據(jù)的比例嗎?對算法有什么影響?

A5：分類問題中對正負(fù)樣本的平衡是必須的，這個(gè)也是影響最后分類結(jié)果的一個(gè)很重要的因素，如果樣本不平衡，能做的事情是樣本增益和樣本抽樣。比如正樣本遠(yuǎn)遠(yuǎn)小于負(fù)樣本，可以對正樣本進(jìn)行復(fù)制，或者加上隨機(jī)擾動來擴(kuò)充正樣本，或者直接對負(fù)樣本進(jìn)行抽樣。達(dá)到一定的正負(fù)樣本比，這樣最終的效果會比較好。我們的經(jīng)驗(yàn)是正負(fù)樣本比1：5左右比較適合，達(dá)到一定的正負(fù)樣本比，這樣最終的效果會比較好。我們的經(jīng)驗(yàn)是正負(fù)樣本比1：5左右比較適合。

分類算法精準(zhǔn)營銷