大數(shù)據(jù)分析中的“眼見為實(shí)”

責(zé)任編輯:zsheng

2018-09-11 11:06:21

摘自:IT168

在大數(shù)據(jù)分析中,有很多的“眼見為實(shí)”,這里的意思是通過一定的數(shù)學(xué)方法給出了量化的值,我們認(rèn)為這個數(shù)學(xué)方法是沒錯的,計(jì)算值的方式是沒錯的,則我們認(rèn)為這個值就代表了“真相”。但是事實(shí)真的是這樣嗎?

空說太枯燥了,舉幾個栗子:

1.1分析出來的真的是根因嗎?

使用大數(shù)據(jù)分析一個重要的使命就是發(fā)現(xiàn)事物的內(nèi)在關(guān)聯(lián),其中一個應(yīng)用就是進(jìn)行根因分析,盡管我認(rèn)為,在未來的社會知道是什么比知道為什么更加重要,但是現(xiàn)在仍然還是因果關(guān)系主導(dǎo)的世界,我們總是嘗試用大數(shù)據(jù)來分析問題出現(xiàn)時的根因。

這里面有個問題,在沒有人工經(jīng)驗(yàn)的情況下,你分析出來的根因有可能只是一個現(xiàn)象級的規(guī)律甚至是一個反向的因果。

比如,想知道太陽每天早上升起的原因,分析如下:

1.太陽每天早上都會升起。

2.公雞每天早上都會打鳴。

3.假如你不知道太陽升起和公雞打鳴的科學(xué)原理,你是不是會得到結(jié)論:公雞是太陽升起的根因?

這里有一個不是辦法的辦法是,加入工程經(jīng)驗(yàn)的分析判斷,這里就是純粹的數(shù)據(jù)分析工程師和我們提倡的全棧算法工程師的其中一點(diǎn)差別,也是門檻所在。

1.2相關(guān)系數(shù)真的靠得住嗎?

相關(guān)系數(shù),往往用來衡量兩個變量之間相關(guān)性高低,我們先看下經(jīng)典的皮爾遜相關(guān)系數(shù)的定義:

這是衡量線性相關(guān)性的經(jīng)典公式,但是,變量之間是非線性的呢?

舉個栗子,下圖中溫度和冰激凌銷量幾乎為0,你能說兩者沒有相關(guān)性嗎?

真實(shí)世界中很少有線性關(guān)系,大多數(shù)的都是非線性關(guān)系,比如GDP增長與時間的關(guān)系、收入與幸福的關(guān)系等等,都是呈現(xiàn)log的曲線形狀,用相關(guān)系數(shù)來衡量,會發(fā)現(xiàn)呈現(xiàn)弱相關(guān)。

這里有幾個辦法:

1.數(shù)據(jù)可視化觀察。畫出圖來,實(shí)際分析一下,是否與得到的量化值是一致的?如上述的例子,實(shí)際通過圖來分析就知道,實(shí)際是非線性相關(guān)。這也是數(shù)據(jù)分析領(lǐng)域很重要的一塊內(nèi)容:數(shù)據(jù)可視化。

2.偏相關(guān)。原理類似于求偏導(dǎo)數(shù),基本思路是固定其他維度來分析當(dāng)前維度與目標(biāo)的相關(guān)性。網(wǎng)絡(luò)規(guī)劃優(yōu)化中絕大部分都是屬于這種情況,比如,分析宏觀的吞吐率和用戶數(shù)的關(guān)系,需要在覆蓋、干擾、用戶行為一致或者差不多的情況下來分析,這也是網(wǎng)絡(luò)規(guī)劃優(yōu)化難的地方。

再回到剛才溫度和冰激凌的例子,高于35度,冰激凌銷量和溫度是負(fù)相關(guān),可能是有其他因素沒有考慮到,比如:溫度過高大家都不出門了,選擇在家里避暑,而冰激凌本身也不適合網(wǎng)購,從而影響冰激凌銷量。如果用偏相關(guān)的方法做,那就是要分析在出門次數(shù)這個特征差不多的情況下,分析冰激凌銷量和溫度的關(guān)系。

1.3數(shù)據(jù)的分布真的有那么重要嗎?

非常重要!

過于重視算法本身而忽略數(shù)據(jù)本身是錯誤的,數(shù)據(jù)處理和分析這個過程在大數(shù)據(jù)建模的過程中耗時至少要達(dá)到一半及以上。

還是舉幾個栗子:

第一個栗子,還是剛才聊的相關(guān)系數(shù):

按照相關(guān)系數(shù)計(jì)算公式,x和y的相關(guān)系數(shù)比較高,原因是因?yàn)橐粋€異常點(diǎn)的存在,如果去除掉這個異常值,則x和y沒有相關(guān)性可言。但如果沒有進(jìn)行數(shù)據(jù)分布的分析(可以參考離群點(diǎn)檢測的一些方法,這里不展開),則認(rèn)為x和y是強(qiáng)相關(guān)了。

第二個栗子,分類:

假如你通過某種算法得到了一種模型進(jìn)行分類,分類準(zhǔn)確率有80%。

假設(shè)檢驗(yàn)樣本的分布是下圖,那么80%的分類準(zhǔn)確性還是比較理想的。

也就是說,我的模型隨便蒙一個,比如,無論檢驗(yàn)樣本是什么,我都認(rèn)為樣本是藍(lán)色的,這樣模型的分類準(zhǔn)確性也在80%以上。

這只是個例子,真實(shí)的網(wǎng)絡(luò)中進(jìn)行目標(biāo)和特征的回歸有很多這樣的現(xiàn)象,需要做一些額外的樣本平衡的處理,平衡樣本處理是一塊單獨(dú)的內(nèi)容,簡單描述一下,主要是兩個大類。

1、過采樣。過采樣的原理是將樣本較少的一類的樣本數(shù)目填充起來,填充的辦法很多,最簡單的就是重復(fù)采樣,高級一點(diǎn)的就是通過一定的衡量準(zhǔn)則(如距離)利用幾個樣本生成新的樣本(如距離平均)。

2、欠采樣。欠采樣是對樣本較多的一類的樣本數(shù)目通過采樣的方法降低,采樣也有一些方法,最簡單的就是隨機(jī)采樣,高級一點(diǎn)的是根據(jù)一定衡量準(zhǔn)則(如信息熵)來采樣。

另外還有一整套的分析模型的方法,如回歸診斷,在里面可以對數(shù)據(jù)進(jìn)行很多分析,如正態(tài)性、獨(dú)立性、線性、同方差性等等,這些都是后續(xù)分析和建模最基礎(chǔ)的,這里不展開描述,有機(jī)會可以單獨(dú)寫寫。

順便說一下,大數(shù)據(jù)的建模最后的公式可能只有一個,但是得到這個公式需要大量的嘗試、觀察、分析。那個很經(jīng)典的例子,福特的流水線出問題,斯坦門茨畫了一條線解決了這個問題,開價10萬美元,看結(jié)果貌似很簡單,但是背后是支撐他畫這條線的技能儲備,這個儲備價值99999美元。

想了解大數(shù)據(jù)分析的更多知識嗎?10月10日-12日在上海世博展覽中心舉行的華為全聯(lián)接大會將有多場大數(shù)據(jù)分論壇滿足你的需要。趁現(xiàn)在,最低單日票價只要150,快來點(diǎn)擊華為官網(wǎng)售票頁面,開啟未來通道吧!

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號