动漫精品一区二区3d,4399日本韩国好看电影免费,亚洲va韩国va欧美va天堂

數(shù)據(jù)科學家最常用的十種算法和方法

責任編輯：editor007

作者：Gregory

2016-10-13 22:12:15

摘自：新智元

最近KDnuggets針對數(shù)據(jù)科學家最常使用的算法作了一個調(diào)查，有一些意外的發(fā)現(xiàn)，包括最學術(shù)向的算法和最產(chǎn)業(yè)向的算法。在2011年的投票中，我們把產(chǎn)業(yè) 政府和學術(shù)研究者學生分別合并成一個組，并用以下公式計算產(chǎn)業(yè) 政府的算法“親和度”：

最近KDnuggets針對數(shù)據(jù)科學家最常使用的算法作了一個調(diào)查，有一些意外的發(fā)現(xiàn)，包括最學術(shù)向的算法和最產(chǎn)業(yè)向的算法。

下面是調(diào)查結(jié)果，總調(diào)查人數(shù)是 844 人。

數(shù)據(jù)科學家最常用的Top 10種算法和方法，以及投票比例：

數(shù)據(jù)科學家

表1：數(shù)據(jù)科學家最常用的Top 10算法&方法。所有算法和方法的列表在文末。

說明：這個投票的本意是找出數(shù)據(jù)科學家最常用的工具，但“工具”這個詞含義不明確，所以為了簡便我最初把這個表成為top 10“算法”。當然，正如有讀者指出的，“統(tǒng)計學”或“可視化”以及其他幾個都不是算法，更好的描述應(yīng)該是“方法”。所以我把這個表更名為Top 10算法和方法。

投票者平均使用的算法/方法數(shù)是8.1中，比2011年的類似調(diào)查增加了很多。

在2011年的調(diào)查“數(shù)據(jù)科學/數(shù)據(jù)挖掘的常用算法”中，我們提到最常用的方法是回歸、聚類、決策樹/決策規(guī)則，以及可視化。兩次調(diào)查中投票數(shù)增加最多的是：

提升方法，2016年票數(shù)占32.8%，2011年占23.5%，票數(shù)增加40%

文本挖掘，從2011年的27.7%到2016年的35.9%，票數(shù)增加30%

可視化，從2011年的38.3%到2016年的48.7%，票數(shù)增加27%

時間序列/序列分析，從2011年的29.6%到2016年的37.0%，票數(shù)增25%

異常/偏差檢測，從2011年的16.4%到2016年的19.5%，票數(shù)增加 19%

集成方法，從2011年的28.3%到2016年的33.6%，票數(shù)增加19%

SVM，從2011年的28.6%到2016年的33.6%，票數(shù)增加18%

回歸，從2011年的57.9%到2016年的67.1%，票數(shù)增加16%

2016年新增的回答有：

K-NN，占比46%

PCA，占比43%

隨機森林，占比38%

優(yōu)化，占比24%

神經(jīng)網(wǎng)絡(luò) –深度學習，占比19%

奇異值分解，占比16%

投票數(shù)減少最多的有：

關(guān)聯(lián)規(guī)則，從2011年的28.6%到2016年的15.3%，減少了47%

增量建模，從4.8%到3.1%，減少了36% (這個讓人吃驚)

因素分析，從18.6%到14.2%，減少了24%

生存分析，從9.3%到7.9%，減少了15%

下面的表格表示不同算法類型的應(yīng)用：監(jiān)督、無監(jiān)督、元，及其他，以及投票者職業(yè)類型的占比。在職業(yè)類型中，我們排除了“未回答”(4.5%)和“其他”(3%)。

　　我們發(fā)現(xiàn)，幾乎所有人都使用監(jiān)督式學習算法。

政府和產(chǎn)業(yè)數(shù)據(jù)科學家比學生或?qū)W術(shù)研究人員使用更多不同類型的算法。

產(chǎn)業(yè)數(shù)據(jù)科學家更喜歡元算法。

接下來，我們分析了不同職業(yè)人士最常用的10中算法深度學習：

為了讓結(jié)果更清晰，我們計算了職業(yè)類型和平均算法使用的偏差，即偏差(ALG，類型)=使用(ALG，類型)/使用(ALG，所有)。

　　圖2：按職業(yè)類型分的算法使用偏差

我們發(fā)現(xiàn)，產(chǎn)業(yè)數(shù)據(jù)科學家更喜歡用回歸、可視化、統(tǒng)計、隨機森林和時間序列。政府/非營利機構(gòu)用得更多的是可視化、PCA和時間序列。學術(shù)研究者更常用的是PCA和深度學習。學生普遍上使用的算法較少，常用的是文本挖掘和深度學習。

接下來我們分析了能代表 KDnuggets 整體用戶的具體地區(qū)參與人數(shù)：

投票參與者的地區(qū)分布：

美國/加拿大，40%

歐洲，32%

亞洲，18%

拉丁美洲，5.0%

非洲/中東，3.4%

澳大利亞/新西蘭，2.2%

在2011年的投票中，我們把產(chǎn)業(yè)/政府和學術(shù)研究者/學生分別合并成一個組，并用以下公式計算產(chǎn)業(yè)/政府的算法“親和度”：

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)

——————————- – 1

N(Ind_Gov) / N(Aca_Stu)