數(shù)據(jù)科學家最常用的十種算法和方法

責任編輯:editor007

作者:Gregory

2016-10-13 22:12:15

摘自:新智元

最近KDnuggets針對數(shù)據(jù)科學家最常使用的算法作了一個調(diào)查,有一些意外的發(fā)現(xiàn),包括最學術(shù)向的算法和最產(chǎn)業(yè)向的算法。在2011年的投票中,我們把產(chǎn)業(yè) 政府和學術(shù)研究者 學生分別合并成一個組,并用以下公式計算產(chǎn)業(yè) 政府的算法“親和度”:

最近KDnuggets針對數(shù)據(jù)科學家最常使用的算法作了一個調(diào)查,有一些意外的發(fā)現(xiàn),包括最學術(shù)向的算法和最產(chǎn)業(yè)向的算法。

下面是調(diào)查結(jié)果,總調(diào)查人數(shù)是 844 人。

數(shù)據(jù)科學家最常用的Top 10種算法和方法,以及投票比例:

數(shù)據(jù)科學家

表1:數(shù)據(jù)科學家最常用的Top 10算法&方法。所有算法和方法的列表在文末。

說明:這個投票的本意是找出數(shù)據(jù)科學家最常用的工具,但“工具”這個詞含義不明確,所以為了簡便我最初把這個表成為top 10“算法”。當然,正如有讀者指出的,“統(tǒng)計學”或“可視化”以及其他幾個都不是算法,更好的描述應(yīng)該是“方法”。所以我把這個表更名為Top 10算法和方法。

投票者平均使用的算法/方法數(shù)是8.1中,比2011年的類似調(diào)查增加了很多。

在2011年的調(diào)查“數(shù)據(jù)科學/數(shù)據(jù)挖掘的常用算法”中,我們提到最常用的方法是回歸、聚類、決策樹/決策規(guī)則,以及可視化。兩次調(diào)查中投票數(shù)增加最多的是:

提升方法,2016年票數(shù)占32.8%,2011年占23.5%,票數(shù)增加40%

文本挖掘,從2011年的27.7%到2016年的35.9%,票數(shù)增加30%

可視化,從2011年的38.3%到2016年的48.7%,票數(shù)增加27%

時間序列/序列分析,從2011年的29.6%到2016年的37.0%,票數(shù)增25%

異常/偏差檢測,從2011年的16.4%到2016年的19.5%,票數(shù)增加 19%

集成方法,從2011年的28.3%到2016年的33.6%,票數(shù)增加19%

SVM,從2011年的28.6%到2016年的33.6%,票數(shù)增加18%

回歸,從2011年的57.9%到2016年的67.1%,票數(shù)增加16%

2016年新增的回答有:

K-NN,占比46%

PCA,占比43%

隨機森林,占比38%

優(yōu)化,占比24%

神經(jīng)網(wǎng)絡(luò) –深度學習,占比19%

奇異值分解,占比16%

投票數(shù)減少最多的有:

關(guān)聯(lián)規(guī)則,從2011年的28.6%到2016年的15.3%,減少了47%

增量建模,從4.8%到3.1%,減少了36% (這個讓人吃驚)

因素分析,從18.6%到14.2%,減少了24%

生存分析,從9.3%到7.9%,減少了15%

下面的表格表示不同算法類型的應(yīng)用:監(jiān)督、無監(jiān)督、元,及其他,以及投票者職業(yè)類型的占比。在職業(yè)類型中,我們排除了“未回答”(4.5%)和“其他”(3%)。

  我們發(fā)現(xiàn),幾乎所有人都使用監(jiān)督式學習算法。

政府和產(chǎn)業(yè)數(shù)據(jù)科學家比學生或?qū)W術(shù)研究人員使用更多不同類型的算法。

產(chǎn)業(yè)數(shù)據(jù)科學家更喜歡元算法。

接下來,我們分析了不同職業(yè)人士最常用的10中算法 深度學習:

為了讓結(jié)果更清晰,我們計算了職業(yè)類型和平均算法使用的偏差,即偏差(ALG,類型)=使用(ALG,類型)/使用(ALG,所有)。

  圖2:按職業(yè)類型分的算法使用偏差

我們發(fā)現(xiàn),產(chǎn)業(yè)數(shù)據(jù)科學家更喜歡用回歸、可視化、統(tǒng)計、隨機森林和時間序列。政府/非營利機構(gòu)用得更多的是可視化、PCA和時間序列。學術(shù)研究者更常用的是PCA和深度學習。學生普遍上使用的算法較少,常用的是文本挖掘和深度學習。

接下來我們分析了能代表 KDnuggets 整體用戶的具體地區(qū)參與人數(shù):

投票參與者的地區(qū)分布:

美國/加拿大,40%

歐洲,32%

亞洲,18%

拉丁美洲,5.0%

非洲/中東,3.4%

澳大利亞/新西蘭,2.2%

在2011年的投票中,我們把產(chǎn)業(yè)/政府和學術(shù)研究者/學生分別合并成一個組,并用以下公式計算產(chǎn)業(yè)/政府的算法“親和度”:

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)

——————————- – 1

N(Ind_Gov) / N(Aca_Stu)

因此,親和度為0的算法表示它在產(chǎn)業(yè)/政府和學術(shù)研究者或?qū)W生中的使用情況一致。IG值越高,表示這個算法越“產(chǎn)業(yè)向”,越低,表示算法越“學術(shù)向”。

2011年的調(diào)查中,最“產(chǎn)業(yè)向的算法”是:

增量建模,2.01

異常檢測,1.61

生存分析,1.39

因素分析,0.83

時間序列/序列,0.69

關(guān)聯(lián)規(guī)則,0.5

在最新的調(diào)查中,增量建模(uplift modeling)是最“產(chǎn)業(yè)向的算法”,令人驚奇的發(fā)現(xiàn)是使用它的人非常少——只有3.1%,是這個調(diào)查中得票數(shù)最少的算法。

最“學術(shù)向的算法”是:

常規(guī)神經(jīng)網(wǎng)絡(luò),-0.35

樸素貝葉斯,-0.35

支持向量機(SVM),-0.24

深度學習,-0.19

EM, -0.17

下面的圖表列出了所有的算法和它們的產(chǎn)業(yè)/學術(shù)親和度。

  圖3:數(shù)據(jù)科學家最常用的算法:產(chǎn)業(yè) vs 學術(shù)

下面的表格列出了所有算法的細節(jié),%表示兩次調(diào)查中該算法的得票數(shù)占比,以及比重的變化(%2016/%2011 -1)。

  表3:KDnuggets 2016調(diào)查:數(shù)據(jù)科學家使用的算法

N:按投票數(shù)的排序

Algorithm:算法名稱

Type: S – 監(jiān)督(Supervised), U – 無監(jiān)督(Unsupervised), M – 元(Meta), Z – 其他

2016 % :2016年該算法的得票率

2011 % :2011年該算法的得票率

change (%2016 / %2011 – 1):得票率變化

Industry affinity:如上文解釋。

原文鏈接:http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號