消費(fèi)品企業(yè)應(yīng)該如何使用內(nèi)部產(chǎn)生以及外部采集的數(shù)據(jù),像互聯(lián)網(wǎng)公司一樣建立用戶畫像與會(huì)員體系,以數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行精細(xì)化的生產(chǎn)、運(yùn)營(yíng)和銷售?
傳統(tǒng)的管理咨詢公司,雖然有無(wú)數(shù)頂尖的大腦,但是他們的大腦只靠 Excel 等簡(jiǎn)單工具的輔助,這樣的算力,能不能滿足上述的需求?
在 2015年 上半年,數(shù)據(jù)冰山團(tuán)隊(duì)有幸為國(guó)內(nèi)一家時(shí)尚消費(fèi)品行業(yè)的龍頭公司進(jìn)行數(shù)據(jù)平臺(tái)的建設(shè),歷時(shí)半年,完成了內(nèi)部數(shù)據(jù)的打通和洞察,用戶畫像,會(huì)員體系的搭建,以及外部數(shù)據(jù)獲取與跟蹤。在這里和大家分享我們的一些體會(huì),希望更多的消費(fèi)品企業(yè)可以用數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)進(jìn)行精細(xì)化的運(yùn)作。
其實(shí)作為龍頭消費(fèi)品企業(yè),其數(shù)據(jù)生產(chǎn)能力與中等規(guī)模的互聯(lián)網(wǎng)公司不相上下,支撐日常業(yè)務(wù)的 IT 系統(tǒng)大大小小共有十余個(gè),比如:
1)分銷系統(tǒng):支撐全國(guó)上千家線下門店每日的銷售配貨,每日訂單量在數(shù)十萬(wàn)量級(jí);
2)電商訂單系統(tǒng):負(fù)責(zé)處理十余個(gè)主流電商(京東,天貓,唯品會(huì),一號(hào)店,聚美,亞馬遜,當(dāng)當(dāng)網(wǎng),有贊等)的訂單管理與客服;
3)倉(cāng)庫(kù)管理系統(tǒng):負(fù)責(zé)全國(guó)各大區(qū)域的倉(cāng)儲(chǔ)物流,數(shù)千個(gè) SKU 的備貨情況;
4)BI 系統(tǒng):負(fù)責(zé)各主要業(yè)務(wù)系統(tǒng)的數(shù)據(jù)聚合,制成日常統(tǒng)計(jì)報(bào)表;外加大大小小的財(cái)務(wù)系統(tǒng),人力系統(tǒng),績(jī)效系統(tǒng),品牌 / 分公司訂貨系統(tǒng)等,每日產(chǎn)生的數(shù)據(jù)維度以及量級(jí)其實(shí)已經(jīng)相當(dāng)龐大。
但和互聯(lián)網(wǎng)公司相比,消費(fèi)品企業(yè)的數(shù)據(jù)消費(fèi),數(shù)據(jù)分析能力存在明顯的短板。越來(lái)越多的管理層也十分希望像互聯(lián)網(wǎng)公司一樣管理用戶和數(shù)據(jù),使用數(shù)據(jù)驅(qū)動(dòng)他們的決策。
面對(duì)這樣龐雜而分散的數(shù)據(jù)以及對(duì)快速實(shí)時(shí)產(chǎn)生數(shù)據(jù)的渴求,不僅傳統(tǒng)企業(yè)的 IT 及經(jīng)營(yíng)分析部門束手無(wú)策,再高端的管理咨詢公司也只能撓撓頭說(shuō) “臣妾做不到呀”,實(shí)在是超越了這群聰明人大腦的算力。
接下來(lái)會(huì)從三個(gè)角度分享如何為傳統(tǒng)行業(yè)搭建數(shù)據(jù)平臺(tái),首先介紹大數(shù)據(jù)(數(shù)據(jù)科學(xué))與商業(yè)智能(BI)在消費(fèi)品領(lǐng)域的應(yīng)用,然后詳細(xì)講解用戶畫像與用戶體系搭建,最后分享如何利用外部數(shù)據(jù)(電商,社交媒體)對(duì)行業(yè)趨勢(shì)與其他企業(yè)的運(yùn)營(yíng)進(jìn)行監(jiān)控。
在這里面所用到的數(shù)據(jù)相關(guān)的技術(shù),已經(jīng)大大超越管理咨詢顧問(wèn)的算力。如同封面圖中的《魔戒》水晶球 Palantiri,它如同數(shù)據(jù)技術(shù)賦予了人類及精靈看到任何地方的能力。而傳統(tǒng)的人類,無(wú)論如何提高人肉的眼力,也只能到目力所及的有限范圍。
1大數(shù)據(jù)和商業(yè)智能(BI)
我們很少說(shuō)自己是一家大數(shù)據(jù)公司,因?yàn)榇髷?shù)據(jù)這三個(gè)字的意義更多是指一種概念和思維方式,并沒(méi)有什么具體的含義,既不是一種工作也不是一種技術(shù),可能勉強(qiáng)算得上是一些門檻稍高的,和數(shù)據(jù)科學(xué)有關(guān)的算法,技術(shù)以及工具的統(tǒng)一稱謂,比如數(shù)據(jù)挖掘 (聚類,關(guān)聯(lián)),機(jī)器學(xué)習(xí) (邏輯回歸,神經(jīng)網(wǎng)絡(luò)),比如自然語(yǔ)言處理,比如分布式運(yùn)算 (Hadoop, Spark)。但在服務(wù)具體企業(yè)的時(shí)候,我們難免會(huì)被套上大數(shù)據(jù)的殼子,畢竟大家都在找能做 “大數(shù)據(jù)” 的公司。
相比大數(shù)據(jù),Business Inteligence (BI) 的歷史就要久遠(yuǎn)許多,在各大軟件廠商的不斷教育下,大中型公司幾乎都采購(gòu)了 BI 軟件。其實(shí) BI 也是一個(gè)比較寬泛的概念,和大數(shù)據(jù)一樣包含了許許多多的技術(shù)和工具,像是數(shù)據(jù)倉(cāng)庫(kù),OLAP cubes,Data Mart,Star schema,數(shù)據(jù)挖掘等等。那么他們究竟是不是同一個(gè)東西呢?
1.1商業(yè)智能(BI)
其實(shí)軟件廠商所提供的 BI 軟件與廣義的 BI 概念還是有很大程度的區(qū)別。
為了追求高度的抽象化與通用性,BI 軟件大部分時(shí)間所承擔(dān)的責(zé)任是一家公司的各類報(bào)表應(yīng)用:將各個(gè) IT 系統(tǒng)的數(shù)據(jù)聚合至 BI,然后進(jìn)行統(tǒng)計(jì)匯總,并統(tǒng)一在前端通過(guò) BI portal 呈現(xiàn)出圖表與數(shù)值,便于業(yè)務(wù)人員了解日常數(shù)據(jù)和運(yùn)營(yíng)情況。
所以除了 ETL 部分以外,BI 軟件絕大多數(shù)的功能都是通用性極強(qiáng)的,跨行業(yè),非定制化。ETL,是英文 Extract-Transform-Load 的縮寫,用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程。其實(shí)傳統(tǒng)的消費(fèi)品企業(yè)面對(duì)零散的數(shù)據(jù)庫(kù),特別需要 ETL 的服務(wù)。
ETL 看似低端,其實(shí)當(dāng)今的大數(shù)據(jù)頂尖企業(yè) Palantir,在最初為 CIA 服務(wù)的時(shí)候,也是從 ETL 開始的,讓美帝特工不用在分散的多個(gè)數(shù)據(jù)庫(kù)上分別做一次查詢。
這也就決定了 BI 軟件的 sweet spot 在于監(jiān)控和繪制通用性的統(tǒng)計(jì)報(bào)表,比如時(shí)間序列統(tǒng)計(jì),分布統(tǒng)計(jì),分段統(tǒng)計(jì)等等。
圖 1 展示了這家消費(fèi)品企業(yè)兩年間平均價(jià)格變動(dòng)與總銷量的時(shí)間序列,可以看出銷量?jī)赡陙?lái)穩(wěn)步增長(zhǎng),有小周期性(一二月份賣得少,換季的月份賣得多),而賣出商品的價(jià)格兩年保持基本一致,并呈明顯周期性變化(對(duì)于時(shí)尚消費(fèi)品,冬款的造價(jià)自然要高出夏款許多)。
圖 2 展示了集團(tuán)旗下各品牌的銷量分布和占比,可見(jiàn)此集團(tuán)有一個(gè)相當(dāng)強(qiáng)悍的主品牌,以及 2-3 個(gè)在垂直領(lǐng)域表現(xiàn)不菲的子品牌,定期輸出銷量分布,可以監(jiān)控各品牌的發(fā)展情況并衡量品牌策略是否成功。
BI 軟件的強(qiáng)項(xiàng)是將這些業(yè)務(wù)數(shù)據(jù)匯總起來(lái),無(wú)需編程即可繪制出可供長(zhǎng)期監(jiān)控的可視化報(bào)表,同時(shí)實(shí)現(xiàn)隨時(shí)更新,而不是傳統(tǒng)管理咨詢的一份靜態(tài)報(bào)告。傳統(tǒng)咨詢提供的報(bào)告,往往在出爐的第一天就過(guò)時(shí)了。
1.2數(shù)據(jù)科學(xué)
反觀數(shù)據(jù)科學(xué),如果站在一個(gè)數(shù)據(jù)工程師的立場(chǎng)上,BI 軟件做的事情其實(shí)也屬于數(shù)據(jù)分析的范疇,任何數(shù)據(jù)洞察,數(shù)據(jù)挖掘工作都需要涉及到這些通用維度的基本統(tǒng)計(jì)。但在這種淺層分析的基礎(chǔ)之上,數(shù)據(jù)科學(xué)家可以通過(guò)帶入較強(qiáng)的人為干預(yù)和行業(yè)性輸入,做到許多高于 BI 的數(shù)據(jù)洞察。而將這些洞察落地,運(yùn)用至具體產(chǎn)品設(shè)計(jì),營(yíng)銷方案,會(huì)員體系和售后服務(wù)中,便可以像互聯(lián)網(wǎng)公司一樣,實(shí)現(xiàn)以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)。
舉一個(gè)實(shí)際的例子,圖 3 是用戶重復(fù)購(gòu)買間隔的 CDF 曲線 (Cumulative distribution function)。橫坐標(biāo)代表天數(shù),縱坐標(biāo)代表百分比。數(shù)據(jù)顯示,有 37%的用戶在第一次購(gòu)買后的一個(gè)月(30 天) 內(nèi)會(huì)進(jìn)行第二次購(gòu)買,而 45%的用戶在第二次購(gòu)買后的一個(gè)月內(nèi)進(jìn)行了第三次購(gòu)買,51%的用戶在第三次購(gòu)買后的一個(gè)月內(nèi)進(jìn)行了第四次購(gòu)買。隨著購(gòu)買次數(shù)的增加,CDF 曲線向左傾斜,也就意味著用戶在建立了品牌認(rèn)知后,購(gòu)買頻率顯著增高,兩次購(gòu)買之間的間隔明顯縮短。
因此,誘發(fā)新用戶建立品牌意識(shí),進(jìn)行二次購(gòu)買的窗口為 3-4 個(gè)月的換季檔,而對(duì)老客戶的消費(fèi)喚醒窗口期則更短,以 1-2 個(gè)月為最優(yōu)。這是一個(gè)很典型的數(shù)據(jù)工程師利用自己的行業(yè)知識(shí)和經(jīng)驗(yàn)來(lái)實(shí)現(xiàn)數(shù)據(jù)洞察的例子,也是 BI 軟件無(wú)法做到的。首先研究復(fù)購(gòu)間隔是消費(fèi)品行業(yè)獨(dú)有的場(chǎng)景,更重要的是想要完成這個(gè)洞察,其中所涉及的統(tǒng)計(jì)工作具有很強(qiáng)的定制性,也較為復(fù)雜,需要編寫統(tǒng)計(jì)腳本或是使用多條復(fù)合 SQL 來(lái)實(shí)現(xiàn),數(shù)據(jù)工程師的價(jià)值也在此有了體現(xiàn)。
除了復(fù)雜和高定制性的統(tǒng)計(jì)邏輯外,對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的處理和挖掘也并非 BI 軟件的強(qiáng)項(xiàng)。對(duì)于大型消費(fèi)品公司來(lái)說(shuō),全電商渠道的運(yùn)營(yíng)已經(jīng)成了常態(tài),每日來(lái)自京東,天貓,唯品會(huì),一號(hào)店,聚美這些大型電商平臺(tái)的訂單數(shù)高達(dá)數(shù)萬(wàn)個(gè)。而這些訂單中的郵寄地址里包含了巨大的信息量,比如用戶所在的城市,地理位置,甚至是身份,職業(yè),消費(fèi)能力等等。通過(guò)程序和地圖 API 將這些郵寄地址轉(zhuǎn)化為經(jīng)緯度后,可以對(duì)用戶群做大量的精細(xì)研究。
圖 4 便是我們利用送貨地址做的用戶群分布的熱力圖,以北京的海淀區(qū)為例,大量的用戶密集集中在中關(guān)村周邊,其次便是各大高校宿舍聚集的區(qū)域,如五道口,知春路等地。紅色標(biāo)簽為品牌線下店鋪位置,可見(jiàn)門店已經(jīng)覆蓋了中關(guān)村,北京大學(xué)和五道口等地,但對(duì)于知春路片區(qū),以及用戶相對(duì)集中的牡丹園并未開設(shè)分店。相比之下安貞里分店四周并沒(méi)有特別多的目標(biāo)用戶群出沒(méi)。于是有了圖 4 的用戶分布及店鋪選址。
熱力圖這樣的算力往往超過(guò)了管理咨詢公司的能力范圍,然而對(duì)于用戶的選址卻是很有價(jià)值。
對(duì)于一些并無(wú)日常監(jiān)控必要的統(tǒng)計(jì),有時(shí)也會(huì)貢獻(xiàn)許多有價(jià)值的洞察。
圖 5 展示了線上用戶購(gòu)買時(shí)間的分布情況??梢钥吹贸觯苣┚€上購(gòu)物的時(shí)間十分均勻,除了半夜之外大部分時(shí)間段都有網(wǎng)購(gòu)發(fā)生。相比之下工作日的線上購(gòu)物時(shí)間分布就變得十分有趣,大量的訂單集中產(chǎn)生在早上九點(diǎn)和十點(diǎn)之間,也就是說(shuō)大量的時(shí)尚白領(lǐng)在上班途中,或是步入辦公室后的第一件事便是敗一件自己心儀的寶貝,然后才能心情舒暢地開始一天的工作。
那么不管是自營(yíng)電商促銷,短信推廣,還是各宣傳陣地的推送,工作日早上 8 點(diǎn)至 10 點(diǎn)都是一個(gè)不錯(cuò)的窗口。和圖 5 類似,圖 6 將線上用戶的購(gòu)買數(shù)據(jù)按照一周七天進(jìn)行分布統(tǒng)計(jì),也會(huì)出現(xiàn)一些有意思的現(xiàn)象,比如周六周日上網(wǎng)買東西的用戶極少,每周網(wǎng)購(gòu)的高峰出現(xiàn)在周一和周二?;蛟S上班族們都是通過(guò)線上血拼來(lái)?yè)嵛孔约?,治愈周一綜合征的。而越臨近周末,大家在線買東西的熱情也就越低。
像圖 5,圖 6 這樣的數(shù)據(jù)洞察往往也是 BI 軟件無(wú)法捕捉到的。數(shù)據(jù)工程師們可以將這些沒(méi)有長(zhǎng)期監(jiān)控的意義的指標(biāo)轉(zhuǎn)化成擁有商業(yè)價(jià)值的洞察。同時(shí)這又是傳統(tǒng)的管理咨詢公司無(wú)法做到的,因?yàn)樗麄內(nèi)狈δ芰φ先绱撕A康臄?shù)據(jù)并按天甚至按小時(shí)進(jìn)行實(shí)時(shí)輸出。
個(gè)人認(rèn)為,數(shù)據(jù)科學(xué) (大數(shù)據(jù)) 和廣義的商業(yè)智能原本沒(méi)有本質(zhì)區(qū)別,兩者都涵蓋了非常廣泛的內(nèi)容,并且兩者的核心都是通過(guò)數(shù)據(jù)處理和分析的方式,提升業(yè)務(wù)表現(xiàn)。
但我們平時(shí)所談?wù)摰?“BI” 很多時(shí)候其實(shí)指是軟件廠商所提供的 BI 軟件 / 套件,用于實(shí)現(xiàn)業(yè)務(wù)報(bào)表和統(tǒng)計(jì)監(jiān)控的功能。暫且不提廠商們是否有故意偷換概念的嫌疑,BI 軟件和數(shù)據(jù)科學(xué)還是有著比較大的差異??梢哉f(shuō) BI 軟件通過(guò)高度抽象的方法,提供了一種非常便利的數(shù)據(jù)匯總,統(tǒng)計(jì),可視化的工具,從而完成了數(shù)據(jù)科學(xué)的一部分工作,而許多深層次的,帶有行業(yè)性的,高于 BI 軟件的分析與洞察,仍然需要數(shù)據(jù)工程師的參與,以及特定數(shù)據(jù)系統(tǒng)的支撐來(lái)共同完成。
總結(jié)
與傳統(tǒng)的管理咨詢公司相比,在 BI 層面,大數(shù)據(jù)的相關(guān)技術(shù)勝在算力:數(shù)據(jù)整合能力、實(shí)時(shí)處理能力以及呈現(xiàn)能力。
這一期只是小小的開胃菜,而在后續(xù)的章節(jié)(關(guān)于建立用戶畫像和利用外部數(shù)據(jù)理解行業(yè)及趨勢(shì)),大數(shù)據(jù)的相關(guān)技術(shù)將進(jìn)一步將算力的差距拉得更大,讓傳統(tǒng)的腦力無(wú)法追趕。