數(shù)據(jù)挖掘這個詞已經(jīng)火的不行了。但是有太多文章都是空中部隊。沒有任何實質內容。進步君有一位從事數(shù)據(jù)挖掘領域的專業(yè)朋友,寫了這么一篇文章,很接地氣。值得一看!她的微博是@王秋鈺 大家可以關注哦!
隨著在公司里面一個個項目的推進和完成,并且項目結果也都受到客戶的好評,這里將最近關于數(shù)據(jù)挖掘的一點思考分享出來,也希望能夠和大家討論。這里說的思考主要是圍繞著從數(shù)據(jù)中得到的消費者洞察幫助客戶來改進其市場、銷售和客戶支持操作過程的相關內容。
1. 為什么是現(xiàn)在?
《大數(shù)據(jù)時代》早已成為去年最火爆的暢銷書,網(wǎng)上關于3V(Volume,Velocity , Variety)也會在各式各樣的“大數(shù)據(jù)”的話題中提及。很多人也都知道大多數(shù)的數(shù)據(jù)挖掘技術,至少是學術算法也存在了數(shù)十年,為什么現(xiàn)在的商業(yè)如此的關注?這里不想說什么大數(shù)據(jù)的戰(zhàn)略,管理等很大的內容。僅僅簡單講講我看到的一些內容和切身感受。
①從數(shù)據(jù)中更“全面”的了解消費者
曾經(jīng)讀麥肯錫報告中有提到快消品企業(yè)在以下幾個方面如果能夠更好的運用數(shù)據(jù)將能夠為企業(yè)創(chuàng)造更多的價值,并且也估算了相關的數(shù)值。一些報告的相關內容如下:
We estimate that these applications of opendata in consumer product can enable $520billion to $1.47 trillion in valueannually Marcket share shifts could also occur across the industry,as companiesgain advantage by incorporating open data into their analytics.--《MGI OpenData FullReport》
其實這五個方面也都是建立在對消費者全面了解的基礎上,以前關于消費者洞察也寫過一篇《被低估的寶藏:社會化網(wǎng)絡中的消費者洞察》,文章主要講了三個方面:1 更豐富和貼切的消費者細分和描述 2 更真實和有效的信息獲取 3 更低的獲取成本和更大的樣本容量。一些具體這里就不細講了。但在這里面還想再補充一點,一些weak signal的捕捉也成為了可能,麥肯錫在《The strength of‘weak signals’》的報告中也指出了這一點:Snippets of information, often hidden in social-media streams, offercompanies a valuable new tool for staying ahead.
公司項目里在處理消費者表達數(shù)據(jù)過程中,會對數(shù)據(jù)內容的高峰值,數(shù)據(jù)的長尾部分多次的進行多次data mining直到得到盡可能多的洞察為止。在幾個項目中我們也發(fā)現(xiàn),一些特別多的表達內容的聚類內容可能都是大家在生活中會特別會出現(xiàn)和表達的,但是在處于長尾部分的數(shù)據(jù)往往有著很多連品牌商本身從來都沒有想到的創(chuàng)新點。例如在一個薯片項目,我們發(fā)現(xiàn)了原來薯片的吃法可以有十來種,原來薯片包裝有種種的利用,原來還有薯片哥的存在等。
做Data mining進行消費者洞察的過程就像是安安靜靜的浸入到消費者的生活中,沒有任何假設,從不發(fā)問,僅僅是聆聽和觀察,為品牌商還原出一個最真實的消費者狀態(tài),一點一滴的刻畫出一個生動而全面的消費者畫像,而不再是一張曝光不足的照片。
②數(shù)據(jù)大量產(chǎn)生,技術的成熟提供基礎
數(shù)據(jù)大量產(chǎn)生這一點就不用說了,看看我們每個人一天的生活里會有多大的比例泡在網(wǎng)上,再加上未來各種可穿戴設備,物聯(lián)網(wǎng)的普及,數(shù)據(jù)量之大難以想象。我主要想談談技術,也許技術這個詞不夠專業(yè),自己在編程,數(shù)據(jù)存儲方面也不是特別了解,這里就說說算法這一部分。記得原先在《數(shù)據(jù)結構和算法》一開篇就提到關于等差數(shù)列求和的計算機求和計算,我們從小就知道等差數(shù)列的求和可利用算法公式,該算法利用了首尾兩個數(shù)據(jù)和是一樣的數(shù)據(jù)結構特征從而更簡潔。告訴計算機進行求和命令可以是兩種方法 1.一項項的加,2.直接利用算法,利用第一個方式可能在數(shù)據(jù)量少的時候計算速度與第二種相比不會有太大的差異,但如果數(shù)據(jù)量很大,后者的優(yōu)越性將很明顯。后來在接觸到Apriori算法時候里用看到算法會用到一些剪枝手段減少計算機運算量的時候忍不住拍案叫絕。
另外,各式各樣的統(tǒng)計軟件的背后都有著大量的contributors將自己的算法程序包分享到網(wǎng)上,供后來人更便捷的調用使用。互聯(lián)網(wǎng)的這種集體智慧的共享創(chuàng)造方式讓后來人站在前人的肩膀上,走的更遠。但是在調用這些算法的過程中還是要對算法本身有一些原理上的理解,算法和數(shù)據(jù)結構是鑰匙和鎖,我們在實際操作的過程中還需要根據(jù)具體的情況靈活和適當?shù)氖褂茫瑫诤竺娴姆窒砝锛氄f。
③信息也是產(chǎn)品
許多公司所擁有的客戶信息不僅僅對自己有價值,同時對他人也同樣具有價值。如今很多的淘寶店鋪之間也有了很多的消費者數(shù)據(jù)的共享?;ヂ?lián)網(wǎng)也改變了品牌和品牌之間的關系,一個擁有很多青少年兒童數(shù)據(jù)的公司完全可以將自己的數(shù)據(jù)分享給做兒童食品的公司,或者更進一步,分享彼此所擁有的平臺。
2.數(shù)據(jù)挖掘 for “actionable”insightsdiscovery
數(shù)據(jù)挖掘有很多不同的名稱,例如KDD(knowledge discovery in database),或者BI(businessintelligence),預測建模(predictive model)等,但針對我們業(yè)務感受,我更愿意把數(shù)據(jù)挖掘定義為發(fā)現(xiàn)能夠讓品牌商產(chǎn)生真正落地行為的洞察或發(fā)現(xiàn)。以下舉兩個在項目中的小例子:
在電商的數(shù)據(jù)挖掘中,我們通過對消費者的表達研究了解消費者購買產(chǎn)品的關注重點是什么,影響產(chǎn)品滿意度的重要因素是什么,其次我們會對消費者的線上購買行為數(shù)據(jù)進行研究,去看消費者購買除了買自己品牌的商品同時還會購買哪些競品品牌。結合這表達和行為的洞察,再深入探究競品的商品展示,宣傳,品牌形象,等等各方面和本品之間的差異點。這樣品牌商在電商運營中更能有方向性的去改進產(chǎn)品和消費者之間的溝通方式。
所以,數(shù)據(jù)挖掘是在一項探測大量數(shù)據(jù)以發(fā)現(xiàn)有意義的模式和規(guī)則的業(yè)務流程,我們關注的重點在于發(fā)現(xiàn)的知識是否有意義,是否actionable。正如沈浩老師說的:“這是一個令人興奮的時代,也是一個大數(shù)據(jù)的時代,社交媒體讓我們越來越多地從數(shù)據(jù)中觀察到人類社會的復雜行為模式。以數(shù)據(jù)為基礎的技術決定著人類的未來,但并非是數(shù)據(jù)本身改變了我們的世界,起決定作用的是我們對可用知識的增加。