為什么數(shù)據(jù)挖掘很難成功?

責(zé)任編輯:editor007

作者:傅一平

2016-12-13 20:22:48

摘自:與數(shù)據(jù)同行

現(xiàn)在互聯(lián)網(wǎng)上估計(jì)這個(gè)現(xiàn)象很嚴(yán)重,比如刷單,這些假數(shù)據(jù)嚴(yán)重?cái)_亂了模型,去偽存真是數(shù)據(jù)挖掘師的一個(gè)必修課。模型推廣,成為了建模團(tuán)隊(duì)巨大的負(fù)擔(dān),復(fù)制模型,往往變成了重做模型,搜集結(jié)果數(shù)據(jù)也難上加難,數(shù)據(jù)挖掘,已經(jīng)不是一項(xiàng)純粹的活。

大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘變得越加重要,曾經(jīng)做了很多,成功有之,失敗的卻更多,舉一些例子,探究其失敗原因,也許于大家都有啟示吧。

數(shù)據(jù)缺失總是存在。

為什么數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備工作要這么長(zhǎng)時(shí)間,可以理解成取數(shù)時(shí)間很長(zhǎng)、轉(zhuǎn)換成所需的數(shù)據(jù)形式和格式時(shí)間很長(zhǎng),畢竟只有這樣做,才能喂給數(shù)據(jù)挖掘引擎處理。

但數(shù)據(jù)準(zhǔn)備的真正目的,其實(shí)是要從特定業(yè)務(wù)的角度去獲取一個(gè)真實(shí)的數(shù)據(jù)世界,數(shù)據(jù)的獲取比處理重要,技巧倒是其次了。

離網(wǎng)預(yù)測(cè)一直是很多業(yè)務(wù)領(lǐng)域關(guān)注的焦點(diǎn),特別是電信行業(yè),但這么多年做下來(lái),其構(gòu)建的離網(wǎng)模型卻難言成功,為什么?

因?yàn)閿?shù)據(jù)獲取太難了。

離網(wǎng)預(yù)測(cè)希望用客戶歷史的行為數(shù)據(jù)來(lái)判定未來(lái)一段時(shí)間離網(wǎng)的可能性,但國(guó)內(nèi)的電信市場(chǎng)并不穩(wěn)定,不僅資費(fèi)套餐復(fù)雜,大量的促銷政策時(shí)時(shí)轟炸眼球,大家看得是熱鬧,但對(duì)于數(shù)據(jù)挖掘人員來(lái)講,卻是業(yè)務(wù)理解和數(shù)據(jù)準(zhǔn)備的噩耗了。

因?yàn)闃I(yè)務(wù)的理解很困難,數(shù)據(jù)完全被業(yè)務(wù)扭曲,如果要預(yù)測(cè)準(zhǔn)確,不僅自身業(yè)務(wù)促銷的因素要考慮進(jìn)去,還要考慮競(jìng)爭(zhēng)對(duì)手策反政策、地域影響等等,你訓(xùn)練時(shí)看到的是一個(gè)簡(jiǎn)單的離網(wǎng)結(jié)果數(shù)據(jù),但誘導(dǎo)因素異常復(fù)雜,這類因素相關(guān)的數(shù)據(jù)根本取不到或者難以量化。

比如電信離網(wǎng)很大程度是競(jìng)爭(zhēng)對(duì)手策反、客戶遷徙離網(wǎng)等等,你知道競(jìng)爭(zhēng)對(duì)手何時(shí)推出的促銷政策嗎?你知道客戶什么時(shí)候搬的家嗎?你如何用數(shù)據(jù)來(lái)表達(dá)這種影響?你的數(shù)據(jù)能適應(yīng)市場(chǎng)變化的節(jié)奏嗎?

因此,如果某個(gè)合作伙伴來(lái)跟你說(shuō),我可以做電信行業(yè)的離網(wǎng)模型,那是個(gè)偽命題,離網(wǎng)模型已經(jīng)被電信行業(yè)做爛了,幾乎沒(méi)有成功的案例,即使一時(shí)成功也持續(xù)不了多久,只要業(yè)務(wù)不統(tǒng)一,就不大可能出現(xiàn)一個(gè)基本適用的離網(wǎng)模型,你無(wú)法想象全國(guó)10萬(wàn)個(gè)電信資費(fèi)政策會(huì)對(duì)預(yù)測(cè)建模造成怎樣的影響。

與互聯(lián)網(wǎng)大一統(tǒng)的數(shù)據(jù)相比,其搞的風(fēng)控模型顯然要簡(jiǎn)單的多了,因?yàn)閿?shù)據(jù)的獲取難度和穩(wěn)定度不在一個(gè)量級(jí)上。

數(shù)據(jù)挖掘,難就難在要為預(yù)測(cè)的業(yè)務(wù)提供跟這個(gè)業(yè)務(wù)相關(guān)的數(shù)據(jù)環(huán)境,因此,有時(shí)離網(wǎng)模型做不好,并不是模型師的錯(cuò),也不是算法的問(wèn)題,而是業(yè)務(wù)惹的禍,是數(shù)據(jù)問(wèn)題。

你讓開(kāi)發(fā)出Alphgo的DEEP MIND團(tuán)隊(duì)來(lái)做離網(wǎng)模型,也是一個(gè)死字,這可能也是傳統(tǒng)行業(yè)數(shù)據(jù)挖掘很難出效果的一個(gè)原因。

阿里的螞蟻金服,所以能算法取勝,一個(gè)原因是它天生具有線上的資金往來(lái)數(shù)據(jù),如果讓它去分析傳統(tǒng)銀行的線下數(shù)據(jù),估計(jì)難度也很大。

數(shù)據(jù)挖掘師特別強(qiáng)調(diào)要理解業(yè)務(wù),就是希望你基于業(yè)務(wù)的理解能找到所需的解釋數(shù)據(jù),外來(lái)的和尚所以做不好,也是這個(gè)因素,因?yàn)榇蛞粯寭Q一個(gè)地方的方式,跟扎根理解業(yè)務(wù)的建模文化背道而馳。

數(shù)據(jù)準(zhǔn)備,不確定性總是存在,因此一定程度上講,這個(gè)世界是不可預(yù)測(cè)的,預(yù)測(cè)的能力,跟我們采集數(shù)據(jù)的能力成一定的正相關(guān)關(guān)系。

大數(shù)據(jù)的意義,就在于可以采集到更多的數(shù)據(jù),這個(gè)決定了我們用機(jī)器解釋世界的可能程度。

假數(shù)據(jù)真分析。

還是拿離網(wǎng)的例子,你就知道很多時(shí)候,所謂的解釋數(shù)據(jù),都是假數(shù)據(jù),雖然你不是故意的,你還很認(rèn)真,但因?yàn)槭芟抻跇I(yè)務(wù)能力,決定了你只能使用假數(shù)據(jù),結(jié)果可想而知。

以前新手,在做離網(wǎng)預(yù)測(cè)的時(shí)候,總喜歡拿訂購(gòu)成功的數(shù)據(jù)作為訓(xùn)練的數(shù)據(jù),但這個(gè)顯然是個(gè)大謬誤。

要知道,大量的業(yè)務(wù)訂購(gòu)是套餐附帶訂購(gòu)的,并不能反映用戶的真實(shí)意愿,拿這個(gè)數(shù)據(jù)去訓(xùn)練,能訓(xùn)練出什么東西?這就是業(yè)務(wù)能力不夠造成的現(xiàn)象。

現(xiàn)在互聯(lián)網(wǎng)上估計(jì)這個(gè)現(xiàn)象很嚴(yán)重,比如刷單,這些假數(shù)據(jù)嚴(yán)重?cái)_亂了模型,去偽存真是數(shù)據(jù)挖掘師的一個(gè)必修課。

但這個(gè),可惜又跟業(yè)務(wù)能力相關(guān),依賴于實(shí)踐和經(jīng)驗(yàn),如果讓市場(chǎng)部經(jīng)理轉(zhuǎn)行去做數(shù)據(jù)挖掘師,估計(jì)也很牛逼。

數(shù)據(jù)挖掘,難就難在這里,其是業(yè)務(wù)、數(shù)據(jù)甚至是技術(shù)的結(jié)合體,在大數(shù)據(jù)時(shí)代,這個(gè)趨勢(shì)會(huì)越加明顯。

缺乏對(duì)于“常理”的感覺(jué)。

以下是一個(gè)社交網(wǎng)絡(luò)的案例,場(chǎng)景是需要對(duì)于兩個(gè)通話(或其它)交往圈進(jìn)行重合度判定,以識(shí)別兩個(gè)手機(jī)號(hào)碼是否屬于同一個(gè)人。

規(guī)則似乎很簡(jiǎn)單,但挖掘出來(lái)的結(jié)果卻不盡如人意,準(zhǔn)確率只有12%,百思不得其解。

后來(lái)發(fā)現(xiàn)判定重合度的閾值是30%,這個(gè)也不能說(shuō)明有問(wèn)題,但問(wèn)題出在對(duì)于基數(shù)的判定上,大量的用戶總的交往圈只有3-4個(gè),也就是說(shuō),重合1個(gè)就可能達(dá)到這個(gè)閾值,很多新手或者過(guò)于迷信技巧的人,往往忽視業(yè)務(wù)本質(zhì)的認(rèn)識(shí)。

數(shù)據(jù)挖掘不僅僅是一門挖掘語(yǔ)言,還要有足夠的生活認(rèn)知和數(shù)據(jù)感覺(jué),這個(gè)很難短期能夠提升,依賴于長(zhǎng)期實(shí)踐,甚至認(rèn)為,這個(gè)跟情商相關(guān),有些人就是有感覺(jué),一眼能發(fā)現(xiàn)問(wèn)題。

缺乏迭代的能力。

很多傳統(tǒng)企業(yè),數(shù)據(jù)挖掘效果不好,跟企業(yè)的組織、機(jī)制、流程等相關(guān),舉個(gè)例子:

曾經(jīng)給外呼部門做了一個(gè)外呼偏好模型,就是對(duì)于所有客戶的外呼偏好排個(gè)序,在外呼資源有限的條件下,按照這個(gè)排序進(jìn)行外呼,可以提升外呼效率,然后發(fā)布到標(biāo)簽庫(kù),然后讓外呼部門去用,等待反饋的時(shí)間總是很長(zhǎng),大家都懂的,然后就石沉大海了。

最近想起來(lái),再去要結(jié)果,發(fā)現(xiàn)效果很不錯(cuò),能真正提升10個(gè)百分點(diǎn)啊,但已經(jīng)2個(gè)月過(guò)去了。

這還算一個(gè)較為成功的挖掘,但又有多少模型由于線下流程的原因而被放棄了,誰(shuí)都知道,數(shù)據(jù)挖掘靠的是迭代,很難第一次就成功,但有多少星星在開(kāi)始之時(shí),就被掐滅了。

傳統(tǒng)企業(yè)冗長(zhǎng)的線下流程,的確成為了模型優(yōu)化的大殺器,互聯(lián)網(wǎng)公司天生的在線性讓其算法發(fā)揮出巨大的價(jià)值,而傳統(tǒng)企業(yè)的建模,往往還在為獲得反饋數(shù)據(jù)而努力,組織、系統(tǒng)和運(yùn)營(yíng)上的差距很大。

推廣是永遠(yuǎn)的痛。

很多傳統(tǒng)企業(yè)不同地域上的業(yè)務(wù)差異,不僅僅造成管理難度加大、體驗(yàn)不一致、系統(tǒng)過(guò)于復(fù)雜、運(yùn)營(yíng)成本高昂,也讓模型的建設(shè)和推廣異常困難。

從模型本身的角度,不同地域的數(shù)據(jù)差異有時(shí)很大,在一個(gè)地方成功的模型,在另一個(gè)地方則完全失敗,過(guò)擬合現(xiàn)象比比皆是。

從業(yè)務(wù)理解的角度,建模團(tuán)隊(duì)要面對(duì)幾個(gè)甚至十多個(gè)做類似業(yè)務(wù)的團(tuán)隊(duì),各個(gè)團(tuán)隊(duì)的業(yè)務(wù)理解上的差異和對(duì)于建模的要求各不相同,造成了建模團(tuán)隊(duì)的無(wú)所適從。

模型推廣,成為了建模團(tuán)隊(duì)巨大的負(fù)擔(dān),復(fù)制模型,往往變成了重做模型,搜集結(jié)果數(shù)據(jù)也難上加難,數(shù)據(jù)挖掘,已經(jīng)不是一項(xiàng)純粹的活。

提了以上五點(diǎn),只是為了說(shuō)明數(shù)據(jù)挖掘所以難,是綜合多種因素的結(jié)果,可能不是靠建立一個(gè)平臺(tái),懂得一些算法,掌握一個(gè)工具就能簡(jiǎn)單解決的,往往具有更深層次的原因。

我們?cè)谂φ莆蘸?ldquo;器”的同時(shí),也要抬起頭來(lái),更全面的看待數(shù)據(jù)挖掘這個(gè)事情,因地制宜的制定適合自己企業(yè)特點(diǎn)的數(shù)據(jù)挖掘機(jī)制和流程。

當(dāng)然,大數(shù)據(jù)時(shí)代的到來(lái),讓平臺(tái),工具和算法也變得越加重要,這對(duì)數(shù)據(jù)建模師的知識(shí)結(jié)構(gòu)也帶來(lái)了新的沖擊。

歷史精選文章

不忘初心,大數(shù)據(jù)不是IT的狂歡! 閱讀量:2160我如何完成一本企業(yè)數(shù)據(jù)字典的編寫! 閱讀量:2580BI自助取數(shù)是怎么煉成的? 閱讀量:1835為什么BI取數(shù)這么難?閱讀量:11500為什么數(shù)據(jù)管理工作很難成功?閱讀量:1900為什么傳統(tǒng)BI沒(méi)前途?閱讀量:4093大數(shù)據(jù),為什么不是傳統(tǒng)BI的簡(jiǎn)單升級(jí)?閱讀量:3400數(shù)據(jù)分析師的自我修養(yǎng) 閱讀量:1483唯有數(shù)據(jù)創(chuàng)新,運(yùn)營(yíng)商才能實(shí)現(xiàn)大數(shù)據(jù)變現(xiàn)的突破?閱讀量:1236中國(guó)移動(dòng)進(jìn)軍大數(shù)據(jù)征信,一個(gè)具有旅程碑意義的事件 閱讀量:2380為什么有些人用3年的時(shí)間獲得了你12年的數(shù)據(jù)分析經(jīng)驗(yàn)?閱讀量:1874數(shù)學(xué)中的“羅輯思維” 閱讀量:1090數(shù)據(jù)說(shuō)謊的藝術(shù) 閱讀量:2234看上去很美,談?wù)劙⒗镌频拇髷?shù)據(jù)平臺(tái)【數(shù)加】 閱讀量:1281DPI大數(shù)據(jù)之戰(zhàn):運(yùn)營(yíng)商的艱難抉擇 閱讀量:2342

還有很多...

【編輯推薦】

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)