一線專家談?wù)劊簲?shù)據(jù)挖掘在實(shí)際領(lǐng)域中的那些事兒

責(zé)任編輯:editor005

作者:佘偉

2016-05-16 14:04:49

摘自:InfoQ

當(dāng)特征提取完了之后,我們會采用分類算法來訓(xùn)練模型,最終得到故障診斷和故障預(yù)測的結(jié)果。當(dāng)特征提取完了之后,我們會采用分類算法來訓(xùn)練模型,最終得到故障診斷和故障預(yù)測的結(jié)果。

大家好,我是明略數(shù)據(jù)的佘偉。今天非常榮幸能給大家分享明略數(shù)據(jù)在大數(shù)據(jù)挖掘方面做的一些事情。

企業(yè)中的數(shù)據(jù)挖掘

我們先來看看在企業(yè)中數(shù)據(jù)挖掘都是怎么做的,以及有著哪些問題。

數(shù)據(jù)挖掘

上圖中的左邊是SPSS在1999年提出的《跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程》,在圖中定義了數(shù)據(jù)挖掘的6個(gè)步驟。雖然這個(gè)圖已經(jīng)提出有10幾年了,但是在大數(shù)據(jù)環(huán)境下,這個(gè)流程依然適用。

理解商業(yè)問題。這需要大數(shù)據(jù)科學(xué)家和行業(yè)專業(yè),以及客戶的業(yè)務(wù)專家一起來明確問題。這是整個(gè)大數(shù)據(jù)挖掘中最關(guān)鍵的一步。如果不理解業(yè)務(wù)就貿(mào)然開做,最后的項(xiàng)目一定是失敗的。

分析數(shù)據(jù)。當(dāng)明確了業(yè)務(wù)問題之后,我們就需要去分析數(shù)據(jù),看看到底哪些數(shù)據(jù)能夠支撐我們的業(yè)務(wù),用哪些數(shù)據(jù)去解決問題。在這個(gè)階段,我們可能發(fā)現(xiàn)數(shù)據(jù)不足,或者數(shù)據(jù)質(zhì)量太差,這個(gè)時(shí)候就可能要尋求第三方數(shù)據(jù)的幫助,或者規(guī)劃如何去采集更多的數(shù)據(jù)了。

數(shù)據(jù)挖掘。前兩步都是在做數(shù)據(jù)挖掘前的準(zhǔn)備,當(dāng)業(yè)務(wù)明略,數(shù)據(jù)可用時(shí),我們就正式開始數(shù)據(jù)挖掘了。

3.1提取特征

首先我們要對數(shù)據(jù)進(jìn)行處理, 從數(shù)據(jù)中提取特征 。這是數(shù)據(jù)挖掘非常關(guān)鍵的一步,特征的好壞直接影響最終模型的效果。在數(shù)據(jù)挖掘過程中,算法其實(shí)并不是最主要的因素,影響效果最直接的因素就是特征。

良好的特征需要有非常好的區(qū)分度,只有這些特征,才能很好的去解決問題。舉個(gè)例子,我們要辨別一個(gè)西瓜是好是壞,可能顏色是一個(gè)特征,條紋,重量,瓜蒂也是特征。但是,大家都知道西瓜一般都是綠色的,所以用綠色去作為判別西瓜好壞是沒有區(qū)分度的。而條紋,重量,瓜蒂是判別一個(gè)西瓜是好是壞非常重要的因素,因此他們是好特征。

我們在解決不同問題時(shí),所用的特征是不一樣的??赡茉诮鉀Q某個(gè)問題有用的特征在解決另外一個(gè)問題時(shí)就不具備區(qū)分度。因此,我們必須緊密的聯(lián)系業(yè)務(wù),去選擇合適的特征。

在提取特征時(shí),因?yàn)槲覀兪谴髷?shù)據(jù)挖掘,所以要使用大數(shù)據(jù)技術(shù)去從原始數(shù)據(jù)中提取特征。這需要大數(shù)據(jù)科學(xué)家有著非常豐富的大數(shù)據(jù)處理技能。

3.2建立模型

當(dāng)特征提取完畢后,我們就需要去應(yīng)用算法建立模型了。在實(shí)際的建模過程中,由于數(shù)據(jù)量過于龐大,算法訓(xùn)練過程往往十分緩慢,如何 加速算法計(jì)算速度 ,是一個(gè)非常突出的問題。

此外,由于傳統(tǒng)的數(shù)據(jù)挖掘算法都是針對小數(shù)據(jù)集的,當(dāng)數(shù)據(jù)規(guī)模到了一臺服務(wù)器無法處理的程度,傳統(tǒng)的數(shù)據(jù)挖掘算法就不再使用。此時(shí),我們需要有新的數(shù)據(jù)挖掘技術(shù)來支持大數(shù)據(jù)上的數(shù)據(jù)挖掘。

當(dāng)模型建立完成之后,我們需要對模型進(jìn)行評估,來確定模型效果。此時(shí)最重要的是建立模型的評價(jià)指標(biāo)。這個(gè)評價(jià)指標(biāo)必須是要結(jié)合業(yè)務(wù)來建立的。當(dāng)模型效果不佳時(shí),我們要回到特征提取,建模過程來不斷的迭代,甚至可能要重新分析業(yè)務(wù)和數(shù)據(jù)。

3.3后期工作

當(dāng)一個(gè)效果非常好的模型建立完畢了,我們的數(shù)據(jù)挖掘就結(jié)束了嗎?傳統(tǒng)的數(shù)據(jù)挖掘軟件往往只做到模型建立這一步,但是在模型建立完成之后還有很多工作要做。我們?nèi)绾螌⒛P驮谏a(chǎn)系統(tǒng)中使用起來,如何去管理、運(yùn)行、維護(hù)、擴(kuò)展模型。

我們先來看看DataInsight對業(yè)務(wù)的支持。

可以將DataInsight看做一個(gè)模型運(yùn)行的平臺。他提供一套分布式的模型執(zhí)行引擎。所有通過DataInsight建立的模型都可以在這個(gè)分布式執(zhí)行引擎中運(yùn)行。

在執(zhí)行引擎之上,DataInsight還提供了多個(gè)系統(tǒng)供不同業(yè)務(wù)使用。我們有支持實(shí)時(shí)分析業(yè)務(wù)的實(shí)時(shí)分析系統(tǒng),有支持離線批處理業(yè)務(wù)的離線分析系統(tǒng),還有規(guī)則引擎系統(tǒng),可以讓用戶的業(yè)務(wù)人員去通過規(guī)則對模型進(jìn)行修正。

用戶需要針對不同的業(yè)務(wù)去建立不同的模型,這個(gè)建模過程可以由用戶自己完成,也可以由明略的大數(shù)據(jù)科學(xué)家去完成。建立好的模型以插件的形式插入到DataInsight中去,方便模型的管理和擴(kuò)展。

用戶的業(yè)務(wù)系統(tǒng)會通過API和DataInsight進(jìn)行通信,來運(yùn)行或者更新DataInsight中插入的模型。

一個(gè)典型的DataInsight模型運(yùn)行過程如下:用戶通過API調(diào)用DataInsight,在請求中指定模型,模型的輸入和模型的輸出。DataInsight會將數(shù)據(jù)從數(shù)據(jù)源中取出,送入模型,并且將模型分成多個(gè)步驟,并行化的在分布式執(zhí)行引擎中運(yùn)行。當(dāng)模型運(yùn)行完畢后,結(jié)果將送入用戶指定的目的數(shù)據(jù)庫中。這樣,用戶的應(yīng)用系統(tǒng)就可以直接從目的數(shù)據(jù)庫中獲得模型運(yùn)行的最新結(jié)果了。

DataInsight中將解決客戶業(yè)務(wù)問題的模型成為業(yè)務(wù)模型,或者應(yīng)用。DataInsight對業(yè)務(wù)模型也進(jìn)行了一定層次的抽象。每個(gè)業(yè)務(wù)模型都是由若干步驟組成的。每個(gè)步驟被稱作一個(gè)算子。

上圖是一個(gè)文本分類的業(yè)務(wù)模型,其解決的問題是將若干文本進(jìn)行分類。例如我們有很多文章,我們要對每篇文章的情感進(jìn)行分類,就可以使用這個(gè)模型。

我們將文本分類模型抽象為很多算子的組合。每個(gè)算子都是對數(shù)據(jù)進(jìn)行了某種轉(zhuǎn)換,將一組輸入轉(zhuǎn)化為一組輸出。這個(gè)轉(zhuǎn)化過程可能是對數(shù)據(jù)進(jìn)行的預(yù)處理,也可能是某種機(jī)器學(xué)習(xí)算法。

每個(gè)算子都有輸入和輸出,且算子的輸出可以作為另外一個(gè)算子的輸入。這樣,整個(gè)業(yè)務(wù)模型就抽象成了一個(gè)有向無環(huán)圖(DAG)。DataInsight在執(zhí)行模型時(shí),會去調(diào)度模型中的每個(gè)算子,將適合分布式計(jì)算的算子送入不同的執(zhí)行容器中去運(yùn)行,加速了整個(gè)模型的計(jì)算速度。

  DataInsight總體的體系架構(gòu)見下圖:

(點(diǎn)擊放大圖像)

下面我們介紹一下明略在各個(gè)領(lǐng)域中的一些案例。由于時(shí)間關(guān)系,我這里只舉兩個(gè)案例。

一是精準(zhǔn)營銷方面 。明略是從秒針系統(tǒng)拆分出來的,秒針系統(tǒng)是一家以互聯(lián)網(wǎng)精準(zhǔn)營銷為主要業(yè)務(wù)的公司,因此明略在精準(zhǔn)營銷方面有著接近10年的積累。

首先,明略的大數(shù)據(jù)平臺MDP會將企業(yè)各種自由數(shù)據(jù),包括CRM數(shù)據(jù)、交易行為數(shù)據(jù)以及官網(wǎng)數(shù)據(jù)等,和第三方數(shù)據(jù)一起收集起來,并對這些數(shù)據(jù)進(jìn)行關(guān)聯(lián)和打通,一起存儲到大數(shù)據(jù)平臺MDP中去。

我們針對企業(yè)不同的業(yè)務(wù),建立多個(gè)模型,例如智能推薦模型,用戶畫像模型,消費(fèi)預(yù)測模型,商圈聚類模型等等,這些模型作為插件插入到我們的大數(shù)據(jù)挖掘平臺DataInsight中去。

我們可以將原始數(shù)據(jù)從MDP中取出,進(jìn)過DataInsight中模型的計(jì)算之后,生成最終的結(jié)果數(shù)據(jù),結(jié)果數(shù)據(jù)將送入用戶畫像系統(tǒng)和推薦系統(tǒng)的離線部分。

用戶的推薦系統(tǒng)分為在線和離線兩個(gè)部分,離線推薦的結(jié)果就是DataInsight中計(jì)算出來的結(jié)果。在線推薦系統(tǒng)將會接收一個(gè)在線的推薦請求,通過客戶畫像系統(tǒng)和離線推薦結(jié)果,并結(jié)合當(dāng)時(shí)的一些場景,共同計(jì)算出最終向用戶推薦的物品。

明略的精準(zhǔn)營銷系統(tǒng)已經(jīng)應(yīng)用到了個(gè)性化推薦、精準(zhǔn)營銷、用戶洞察、廣告投放等多個(gè)領(lǐng)域,并取得了良好的效果。

智能推薦算法

和傳統(tǒng)的協(xié)同過濾算法不一樣,這個(gè)算法是采用了分類的思想,通過分類的方法來實(shí)現(xiàn)推薦的。

首先,在進(jìn)行推薦之前,我們必須明確推薦的目標(biāo)。那就是向用戶推薦用戶感興趣的物品。這里的物品可以是商品,也可以是廣告,甚至是文章、電影、音樂等等。

然后我們需要去尋找解決這個(gè)問題所需的數(shù)據(jù)。我們有物品內(nèi)容數(shù)據(jù)庫,用戶CRM數(shù)據(jù)庫,以及用戶行為數(shù)據(jù)。

解決了目標(biāo)和數(shù)據(jù)之后,我們就需要采集一批有標(biāo)注的樣本。因?yàn)槭遣捎玫姆诸愃惴?,這是有監(jiān)督的算法,所以標(biāo)注樣本是建模的第一步工作。標(biāo)注就是通過人工來判定用戶是否對某個(gè)物品感興趣。

標(biāo)注問題解決后,我們就需要從數(shù)據(jù)中提取特征。我們的特征分為3類: 物品自身屬性 ,比如我們推薦的是手機(jī),手機(jī)型號,手機(jī)價(jià)格,手機(jī)顏色都是物品的自身屬性。其次,我們要提取 人的屬性 ,比如人的性別、年齡、收入、教育程度一類。最后,我們還需要知道 人和物品的交互關(guān)系 ,他是瀏覽過商品還是加入過購物車,還是點(diǎn)擊過商品,甚至購買過該商品。除了和推薦的商品之間的關(guān)系之外,我們還可以將用戶和其他商品之間的關(guān)系也作為特征。

這樣,我們就可以通過分類算法去建立模型了。常用的分類算法我們都可以嘗試,諸如GBDT,邏輯回歸,SVM等等。

當(dāng)模型建立完畢之后,我們就可以得到分類結(jié)果了。分類結(jié)果是某用戶對某商品是否感興趣,以及感興趣的程度。感興趣的程度我們可以通過概率來表示。

有了分類結(jié)果還不是我們最終的推薦結(jié)果。我們根據(jù)分類概率對結(jié)果進(jìn)行排序,最后選出TopK個(gè)結(jié)果作為最終結(jié)果返回。

設(shè)備診斷方案

我們的第二個(gè)案例是有關(guān)設(shè)備診斷方案的。

我們知道,工業(yè)4.0是目前比較火熱的一個(gè)話題。而設(shè)備診斷正是工業(yè)4.0中非常重要的一個(gè)應(yīng)用。

設(shè)備診斷又分為 故障診斷 和 故障預(yù)測 兩大類。故障診斷是當(dāng)一個(gè)設(shè)備出現(xiàn)故障,我們需要辨別該故障的類型。故障預(yù)測是我們要預(yù)測出某個(gè)設(shè)備在未來會不會出現(xiàn)故障。這是兩個(gè)截然不同的問題,但是處理的方法是類似的。

故障診斷和故障預(yù)測已經(jīng)在多個(gè)行業(yè)中得到應(yīng)用,并且已經(jīng)取得了非常突出的效果。

明略的故障診斷方案如下圖:

首先,各種設(shè)備的數(shù)據(jù)通過ETL匯聚進(jìn)大數(shù)據(jù)平臺中去。這些數(shù)據(jù)包括傳感器實(shí)時(shí)數(shù)據(jù),設(shè)備歷史數(shù)據(jù),時(shí)間歷史數(shù)據(jù)等等。

然后,在DataInsight中建立故障診斷和故障預(yù)測模型,來對原始的數(shù)據(jù)進(jìn)行分析,并得到診斷和預(yù)測結(jié)果。

DataInsight中的模型會部署到生產(chǎn)系統(tǒng)中去,通過API和故障診斷和故障預(yù)測應(yīng)用進(jìn)行交互,提供最終的分析結(jié)果給到應(yīng)用,在應(yīng)用中根據(jù)分析結(jié)果進(jìn)行各種統(tǒng)計(jì)和可視化的展現(xiàn)。

進(jìn)行故障診斷和故障預(yù)測建模有兩種方式,其一是傳統(tǒng)的方式,其二是通過深度學(xué)習(xí)的方式。

這個(gè)過程中首先我們要對故障進(jìn)行標(biāo)注。對于故障診斷,我們要標(biāo)注的是何種類型的故障,對于故障預(yù)測,我們要標(biāo)注的是有沒有發(fā)生故障。標(biāo)注的工作是專業(yè)性極強(qiáng)的工作,一般需要用戶的專家來進(jìn)行標(biāo)注。

對于傳統(tǒng)方法而言,最復(fù)雜的部分是特征選取。上文我們也講到,只有那些有強(qiáng)區(qū)分度的特征才能有效的支持最終的模型。所以,需要由業(yè)務(wù)專家來指導(dǎo)如何從原始數(shù)據(jù)中提取特征。這就需要將業(yè)務(wù)專家的經(jīng)驗(yàn)程序化,將人的知識變?yōu)闄C(jī)器能夠處理的方法。這是非常困難的。

當(dāng)特征提取完了之后,我們會采用分類算法來訓(xùn)練模型,最終得到故障診斷和故障預(yù)測的結(jié)果。

深度學(xué)習(xí)

在傳統(tǒng)方法之外,我們還可以通過深度學(xué)習(xí)的方法來進(jìn)行故障的診斷和預(yù)測,深度學(xué)習(xí)方法示意圖如下:

這個(gè)過程中首先我們要對故障進(jìn)行標(biāo)注。對于故障診斷,我們要標(biāo)注的是何種類型的故障,對于故障預(yù)測,我們要標(biāo)注的是有沒有發(fā)生故障。標(biāo)注的工作是專業(yè)性極強(qiáng)的工作,一般需要用戶的專家來進(jìn)行標(biāo)注。

對于傳統(tǒng)方法而言,最復(fù)雜的部分是特征選取。上文我們也講到,只有那些有強(qiáng)區(qū)分度的特征才能有效的支持最終的模型。所以,需要由業(yè)務(wù)專家來指導(dǎo)如何從原始數(shù)據(jù)中提取特征。這就需要將業(yè)務(wù)專家的經(jīng)驗(yàn)程序化,將人的知識變?yōu)闄C(jī)器能夠處理的方法。這是非常困難的。

當(dāng)特征提取完了之后,我們會采用分類算法來訓(xùn)練模型,最終得到故障診斷和故障預(yù)測的結(jié)果。

深度學(xué)習(xí)

在傳統(tǒng)方法之外,我們還可以通過深度學(xué)習(xí)的方法來進(jìn)行故障的診斷和預(yù)測,深度學(xué)習(xí)方法示意圖如下:

比起傳統(tǒng)的方法,故障標(biāo)注這一步是省不掉的,因?yàn)槲覀冇玫倪€是一個(gè)有監(jiān)督的方法,這個(gè)方法必須要有一批標(biāo)注好的樣本。

和傳統(tǒng)方法不一樣的是,我們直接將樣本送入深度學(xué)習(xí)算法,常用的如卷積神經(jīng)網(wǎng)絡(luò)去進(jìn)行訓(xùn)練,來得到最終的故障診斷和預(yù)測的結(jié)果。

相比傳統(tǒng)方法,深度學(xué)習(xí)方法省卻了特征提取的過程。我們通過深度學(xué)習(xí)算法直接從原始數(shù)據(jù)中學(xué)習(xí),省卻了專家指導(dǎo)的過程。深度學(xué)習(xí)方法甚至能夠?qū)W習(xí)到專家所不知道,或者在專家潛意識內(nèi)但無法表達(dá)出來的特征。通過深度學(xué)習(xí)算法出來的模型,其效果往往好于傳統(tǒng)方法的模型。

但是,深度學(xué)習(xí)算法對 數(shù)據(jù)量的要求 非常大。只有有大量訓(xùn)練樣本才能使用深度學(xué)習(xí)。這在現(xiàn)實(shí)的工作中可能是一個(gè)問題。

Q&A

Q1:數(shù)據(jù)互聯(lián)行業(yè)主要是指哪些業(yè)務(wù)?

A1:數(shù)據(jù)互聯(lián)是明略將第三方數(shù)據(jù)引入到企業(yè)中和企業(yè)自有數(shù)據(jù)結(jié)合起來去做數(shù)據(jù)挖掘的業(yè)務(wù),這個(gè)業(yè)務(wù)需要對第三方數(shù)據(jù)如何與企業(yè)數(shù)據(jù)融合,去進(jìn)行數(shù)據(jù)挖掘有比較深的理解.

簡單的說,就是幫助用戶分析需要什么樣的數(shù)據(jù),以及從何處去獲得這些數(shù)據(jù),外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)如何打通,如何去數(shù)據(jù)挖掘.

Q2:請問領(lǐng)域知識和數(shù)據(jù)專業(yè)知識哪個(gè)在實(shí)際工作中起的作用更大?

A2:領(lǐng)域知識和數(shù)據(jù)專業(yè)知識應(yīng)用的場景不一樣。在進(jìn)行數(shù)據(jù)挖掘之前,我們首先需要有領(lǐng)域知識。必須明白要解決的問題是什么。只有有了領(lǐng)域知識,并且有數(shù)據(jù)知識,才能把業(yè)務(wù)轉(zhuǎn)化為數(shù)據(jù)挖掘的問題,在進(jìn)行數(shù)據(jù)挖掘過程中,數(shù)據(jù)挖掘知識可能是更關(guān)鍵的,因?yàn)槟阋廊绾稳ソ鉀Q這個(gè)問題。但是,進(jìn)行數(shù)據(jù)挖掘時(shí),還必須根據(jù)業(yè)務(wù)對模型進(jìn)行調(diào)整。

剛才我也說了,模型調(diào)優(yōu)必須建立合理的評價(jià)指標(biāo)。這個(gè)評價(jià)指標(biāo)根據(jù)不同的業(yè)務(wù)可能是不一樣的。所以必須有業(yè)務(wù)知識才能知道如何去調(diào)優(yōu),才能知道什么樣的模型是符合業(yè)務(wù)需要的,所以,在實(shí)際的數(shù)據(jù)挖掘過程中,領(lǐng)域知識和數(shù)據(jù)挖掘?qū)I(yè)知識都是非常重要的,如果缺乏了任何一種,可能都很難取得比較好的效果。另外大數(shù)據(jù)挖掘中大數(shù)據(jù)處理能力也很重要,如果不會處理大數(shù)據(jù),或者沒有良好的編程能力,也是很難做好的.

Q3:請問一下明略大數(shù)據(jù)在特征工程上有哪些比較好的經(jīng)驗(yàn)?zāi)?

A3:其實(shí)特征工程是一個(gè)非常dirty的活,需要大量的嘗試性工作,明略的經(jīng)驗(yàn)就是,在做特征工程時(shí),了解業(yè)務(wù)是第一位,然后需要深入的去調(diào)查客戶的每一張表,搞明白每一張表的每一個(gè)字段,以及字段間的關(guān)聯(lián)關(guān)系,我們在實(shí)際工作中,經(jīng)常要調(diào)研幾百張表去找到我們需要的數(shù)據(jù),此外,作為一個(gè)合格的數(shù)據(jù)挖掘人員,或者數(shù)據(jù)科學(xué)家,敏銳力非常重要,能夠結(jié)合業(yè)務(wù)知道可以從數(shù)據(jù)中提取哪些特征。特征提取出來之后,是否是一個(gè)好的特征其實(shí)是不知道的。我們可以大膽的嘗試,多選取一些特征過來。然后在通過特征選擇去進(jìn)行篩選。特征工程是實(shí)際建模中最耗人力的過程。我們建模大概70-80%的時(shí)間都耗費(fèi)在這個(gè)上面。

Q4:請問在進(jìn)行數(shù)據(jù)挖掘之前的怎么解決數(shù)據(jù)質(zhì)量問題?

A4:坦白的說,數(shù)據(jù)質(zhì)量也是困擾我們的問題,目前我們遇到的客戶,坦白的說數(shù)據(jù)很多都是碎片化的??赡苁且?yàn)橹八麄兒雎粤四承?shù)據(jù)的收集,或者他們的數(shù)據(jù)只是總體樣本的一小部分,對于第一種客戶,我們會幫助他們制定如何去收集更多的數(shù)據(jù),只有數(shù)據(jù)有了積累,數(shù)據(jù)質(zhì)量問題才會解決。對于第二種客戶,我們會幫助引入第三方數(shù)據(jù),用第三方數(shù)據(jù)來補(bǔ)充客戶現(xiàn)有的數(shù)據(jù),大數(shù)據(jù)的數(shù)據(jù)質(zhì)量差是有目共睹的,但是,正是由于數(shù)據(jù)量大,數(shù)據(jù)類型多,我們才能從大數(shù)據(jù)的沙子中挖到金子。如果傳統(tǒng)數(shù)據(jù)是富礦石,大數(shù)據(jù)就是貧礦石,大數(shù)據(jù)數(shù)據(jù)只能以量去取代質(zhì)。

Q5:目前未回答問題中排名最高的是這個(gè):二分類分類算法中,負(fù)面情況占比很小,訓(xùn)練集數(shù)據(jù)負(fù)面數(shù)據(jù)如何按比例分?訓(xùn)練集需要調(diào)高負(fù)面數(shù)據(jù)的比例嗎?對算法有什么影響?

A5:分類問題中對正負(fù)樣本的平衡是必須的,這個(gè)也是影響最后分類結(jié)果的一個(gè)很重要的因素,如果樣本不平衡,能做的事情是樣本增益和樣本抽樣。比如正樣本遠(yuǎn)遠(yuǎn)小于負(fù)樣本,可以對正樣本進(jìn)行復(fù)制,或者加上隨機(jī)擾動來擴(kuò)充正樣本,或者直接對負(fù)樣本進(jìn)行抽樣。達(dá)到一定的正負(fù)樣本比,這樣最終的效果會比較好。我們的經(jīng)驗(yàn)是正負(fù)樣本比1:5左右比較適合,達(dá)到一定的正負(fù)樣本比,這樣最終的效果會比較好。我們的經(jīng)驗(yàn)是正負(fù)樣本比1:5左右比較適合。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號