最近KDnuggets針對數(shù)據(jù)科學家最常使用的算法作了一個調(diào)查,有一些意外的發(fā)現(xiàn),包括最學術(shù)向的算法和最產(chǎn)業(yè)向的算法。
下面是調(diào)查結(jié)果,總調(diào)查人數(shù)是 844 人。
數(shù)據(jù)科學家最常用的Top 10種算法和方法,以及投票比例:
表1:數(shù)據(jù)科學家最常用的Top 10算法&方法。所有算法和方法的列表在文末。
說明:這個投票的本意是找出數(shù)據(jù)科學家最常用的工具,但“工具”這個詞含義不明確,所以為了簡便我最初把這個表成為top 10“算法”。當然,正如有讀者指出的,“統(tǒng)計學”或“可視化”以及其他幾個都不是算法,更好的描述應(yīng)該是“方法”。所以我把這個表更名為Top 10算法和方法。
投票者平均使用的算法/方法數(shù)是8.1中,比2011年的類似調(diào)查增加了很多。
在2011年的調(diào)查“數(shù)據(jù)科學/數(shù)據(jù)挖掘的常用算法”中,我們提到最常用的方法是回歸、聚類、決策樹/決策規(guī)則,以及可視化。兩次調(diào)查中投票數(shù)增加最多的是:
提升方法,2016年票數(shù)占32.8%,2011年占23.5%,票數(shù)增加40%
文本挖掘,從2011年的27.7%到2016年的35.9%,票數(shù)增加30%
可視化,從2011年的38.3%到2016年的48.7%,票數(shù)增加27%
時間序列/序列分析,從2011年的29.6%到2016年的37.0%,票數(shù)增25%
異常/偏差檢測,從2011年的16.4%到2016年的19.5%,票數(shù)增加 19%
集成方法,從2011年的28.3%到2016年的33.6%,票數(shù)增加19%
SVM,從2011年的28.6%到2016年的33.6%,票數(shù)增加18%
回歸,從2011年的57.9%到2016年的67.1%,票數(shù)增加16%
2016年新增的回答有:
K-NN,占比46%
PCA,占比43%
隨機森林,占比38%
優(yōu)化,占比24%
神經(jīng)網(wǎng)絡(luò) –深度學習,占比19%
奇異值分解,占比16%
投票數(shù)減少最多的有:
關(guān)聯(lián)規(guī)則,從2011年的28.6%到2016年的15.3%,減少了47%
增量建模,從4.8%到3.1%,減少了36% (這個讓人吃驚)
因素分析,從18.6%到14.2%,減少了24%
生存分析,從9.3%到7.9%,減少了15%
下面的表格表示不同算法類型的應(yīng)用:監(jiān)督、無監(jiān)督、元,及其他,以及投票者職業(yè)類型的占比。在職業(yè)類型中,我們排除了“未回答”(4.5%)和“其他”(3%)。
我們發(fā)現(xiàn),幾乎所有人都使用監(jiān)督式學習算法。
政府和產(chǎn)業(yè)數(shù)據(jù)科學家比學生或?qū)W術(shù)研究人員使用更多不同類型的算法。
產(chǎn)業(yè)數(shù)據(jù)科學家更喜歡元算法。
接下來,我們分析了不同職業(yè)人士最常用的10中算法 深度學習:
為了讓結(jié)果更清晰,我們計算了職業(yè)類型和平均算法使用的偏差,即偏差(ALG,類型)=使用(ALG,類型)/使用(ALG,所有)。
圖2:按職業(yè)類型分的算法使用偏差
我們發(fā)現(xiàn),產(chǎn)業(yè)數(shù)據(jù)科學家更喜歡用回歸、可視化、統(tǒng)計、隨機森林和時間序列。政府/非營利機構(gòu)用得更多的是可視化、PCA和時間序列。學術(shù)研究者更常用的是PCA和深度學習。學生普遍上使用的算法較少,常用的是文本挖掘和深度學習。
接下來我們分析了能代表 KDnuggets 整體用戶的具體地區(qū)參與人數(shù):
投票參與者的地區(qū)分布:
美國/加拿大,40%
歐洲,32%
亞洲,18%
拉丁美洲,5.0%
非洲/中東,3.4%
澳大利亞/新西蘭,2.2%
在2011年的投票中,我們把產(chǎn)業(yè)/政府和學術(shù)研究者/學生分別合并成一個組,并用以下公式計算產(chǎn)業(yè)/政府的算法“親和度”:
N(Alg,Ind_Gov) / N(Alg,Aca_Stu)
——————————- – 1
N(Ind_Gov) / N(Aca_Stu)
因此,親和度為0的算法表示它在產(chǎn)業(yè)/政府和學術(shù)研究者或?qū)W生中的使用情況一致。IG值越高,表示這個算法越“產(chǎn)業(yè)向”,越低,表示算法越“學術(shù)向”。
2011年的調(diào)查中,最“產(chǎn)業(yè)向的算法”是:
增量建模,2.01
異常檢測,1.61
生存分析,1.39
因素分析,0.83
時間序列/序列,0.69
關(guān)聯(lián)規(guī)則,0.5
在最新的調(diào)查中,增量建模(uplift modeling)是最“產(chǎn)業(yè)向的算法”,令人驚奇的發(fā)現(xiàn)是使用它的人非常少——只有3.1%,是這個調(diào)查中得票數(shù)最少的算法。
最“學術(shù)向的算法”是:
常規(guī)神經(jīng)網(wǎng)絡(luò),-0.35
樸素貝葉斯,-0.35
支持向量機(SVM),-0.24
深度學習,-0.19
EM, -0.17
下面的圖表列出了所有的算法和它們的產(chǎn)業(yè)/學術(shù)親和度。
圖3:數(shù)據(jù)科學家最常用的算法:產(chǎn)業(yè) vs 學術(shù)
下面的表格列出了所有算法的細節(jié),%表示兩次調(diào)查中該算法的得票數(shù)占比,以及比重的變化(%2016/%2011 -1)。
表3:KDnuggets 2016調(diào)查:數(shù)據(jù)科學家使用的算法
N:按投票數(shù)的排序
Algorithm:算法名稱
Type: S – 監(jiān)督(Supervised), U – 無監(jiān)督(Unsupervised), M – 元(Meta), Z – 其他
2016 % :2016年該算法的得票率
2011 % :2011年該算法的得票率
change (%2016 / %2011 – 1):得票率變化
Industry affinity:如上文解釋。
原文鏈接:http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html