一些個(gè)人的工作經(jīng)驗(yàn),希望對(duì)后來(lái)人有幫助。首先總結(jié)下平時(shí)數(shù)據(jù)分析的一般步驟。
第一步:數(shù)據(jù)準(zhǔn)備:(70%時(shí)間)獲取數(shù)據(jù)(爬蟲(chóng),數(shù)據(jù)倉(cāng)庫(kù))驗(yàn)證數(shù)據(jù)數(shù)據(jù)清理(缺失值、孤立點(diǎn)、垃圾信息、規(guī)范化、重復(fù)記錄、特殊值、合并數(shù)據(jù)集)使用python進(jìn)行文件讀取csv或者txt便于操作數(shù)據(jù)文件(I/O和文件串的處理,逗號(hào)分隔)抽樣(大數(shù)據(jù)時(shí)。關(guān)鍵是隨機(jī))存儲(chǔ)和歸檔第二步:數(shù)據(jù)觀察(發(fā)現(xiàn)規(guī)律和隱藏的關(guān)聯(lián))單一變量:點(diǎn)圖、抖動(dòng)圖;直方圖、核密度估計(jì);累計(jì)分布函數(shù)兩個(gè)變量:散點(diǎn)圖、LOESS平滑、殘差分析、對(duì)數(shù)圖、傾斜多個(gè)變量:假色圖、馬賽克圖、平行左邊圖第三步:數(shù)據(jù)建模推算和估算(均衡可行性和成本消耗)縮放參數(shù)模型(縮放維度優(yōu)化問(wèn)題)建立概率模型(二項(xiàng)、高斯、冪律、幾何、泊松分布與已知模型對(duì)比)第四步:數(shù)據(jù)挖掘選擇合適的機(jī)器學(xué)習(xí)算法(蒙特卡洛模擬,相似度計(jì)算,主成分分析)大數(shù)據(jù)考慮用Map/Reduce得出結(jié)論,繪制最后圖表
循環(huán)到第二步到第四步,進(jìn)行數(shù)據(jù)分析,根據(jù)圖表得出結(jié)論完成文章。
結(jié)合實(shí)際業(yè)務(wù)來(lái)做數(shù)據(jù)分析
“無(wú)尺度網(wǎng)絡(luò)模型”的作者艾伯特-拉斯洛·巴拉巴西認(rèn)為——人類(lèi)93%的行為是可以預(yù)測(cè)的。數(shù)據(jù)作為人類(lèi)活動(dòng)的痕跡,就像金礦等待發(fā)掘。但是首先你得明確自己的業(yè)務(wù)需求,數(shù)據(jù)才可能為你所用。
1. 數(shù)據(jù)為王,業(yè)務(wù)是核心
了解整個(gè)產(chǎn)業(yè)鏈的結(jié)構(gòu)制定好業(yè)務(wù)的發(fā)展規(guī)劃衡量的核心指標(biāo)有哪些
有了數(shù)據(jù)必須和業(yè)務(wù)結(jié)合才有效果。首先你需要摸清楚所在產(chǎn)業(yè)鏈的整個(gè)結(jié)構(gòu),對(duì)行業(yè)的上游和下游的經(jīng)營(yíng)情況有大致的了解。然后根據(jù)業(yè)務(wù)當(dāng)前的需要,指定發(fā)展計(jì)劃,從而歸類(lèi)出需要整理的數(shù)據(jù)。最后一步詳細(xì)的列出數(shù)據(jù)核心指標(biāo)(KPI),并且對(duì)幾個(gè)核心指標(biāo)進(jìn)行更細(xì)致的拆解,當(dāng)然具體結(jié)合你的業(yè)務(wù)屬性來(lái)處理,找出那些對(duì)指標(biāo)影響幅度較大的影響因子。前期資料的收集以及業(yè)務(wù)現(xiàn)況的全面掌握非常關(guān)鍵。
2. 思考指標(biāo)現(xiàn)狀,發(fā)現(xiàn)多維規(guī)律
熟悉產(chǎn)品框架,全面定義每個(gè)指標(biāo)的運(yùn)營(yíng)現(xiàn)狀對(duì)比同行業(yè)指標(biāo),挖掘隱藏的提升空間拆解關(guān)鍵指標(biāo),合理設(shè)置運(yùn)營(yíng)方法來(lái)觀察效果爭(zhēng)對(duì)核心用戶,單獨(dú)進(jìn)行產(chǎn)品用研與需求挖掘
發(fā)現(xiàn)規(guī)律不一定需要很高深的編程方法,或者復(fù)雜的統(tǒng)計(jì)公式,更重要的是培養(yǎng)一種感覺(jué)和意識(shí)。不能用你的感覺(jué)去揣測(cè)用戶的感覺(jué),因?yàn)槊總€(gè)人的教育背景、生活環(huán)境都不一樣。很多數(shù)據(jù)元素之間的關(guān)系沒(méi)有明顯的顯示,需要使用直覺(jué)與觀察(數(shù)據(jù)可視化技術(shù)來(lái)呈現(xiàn))。
3. 規(guī)律驗(yàn)證,經(jīng)驗(yàn)總結(jié)
發(fā)現(xiàn)了規(guī)律之后不能立刻上線,需要在測(cè)試機(jī)上對(duì)模型進(jìn)行驗(yàn)證。