亚洲精品中文字幕久久久久,亚洲高清不卡的一区二区,久久青草免费91观看

你的大數(shù)據(jù)項目使用的工具正確嗎？

責任編輯：editor005

2016-04-01 14:06:45

摘自：InfoQ

工具產(chǎn)品解決方案是數(shù)據(jù)科學家洞察數(shù)據(jù)的利器。特征點點陡坡圖顯示在第13和第14特征點時出現(xiàn)拐點，因此，這里選擇的13個主成分來解釋它們之間的關系，見下圖。

工具/產(chǎn)品/解決方案是數(shù)據(jù)科學家洞察數(shù)據(jù)的利器。 KDNuggets網(wǎng)站對此觀點進行了年度調(diào)查，來分析數(shù)據(jù)科學家在用哪些類型的工具，并提供了調(diào)查的匿名原始數(shù)據(jù) 。

通過主成分析(PCA)法進行降維分析

對所有的工具同時進行關系分析，常規(guī)來說，PCA通過對大樣本數(shù)據(jù)統(tǒng)計性質(zhì)(eg, 協(xié)方差)的分析，試圖用主要特征來解釋關系。

分析結(jié)果：

當前分析的目標：通過一些主成分來分析95種工具之間的關系。最終決定以PCA的特征值來決定主成分的數(shù)目，這里選用了兩種規(guī)則：一種是以特征值大于1的特征值數(shù)量來選擇主成分數(shù)量;一種是畫陡坡圖(scree plot)，通過95個特征值你會發(fā)現(xiàn)一個拐點的特征值。

特征點點陡坡圖顯示在第13和第14特征點時出現(xiàn)拐點，因此，這里選擇的13個主成分來解釋它們之間的關系，見下圖。

大數(shù)據(jù)

　　工具分類

下面列出根據(jù)主成分析得出的13類工具(投票數(shù)大于20)：

大數(shù)據(jù)生態(tài)(Hadoop、Spark)和開源項目：Hadoop, HBase, Hive, Mahout, MLlib, Other Hadoop/HDFS-based tools, Pig, Scala, Spark, SQL on Hadoop tools

微軟數(shù)據(jù)科學家工具：Microsoft Azure ML, Microsoft Power BI, Microsoft SQL Server, Revolution Analytics

基于Python的機器學習：Dataiku, H2O (0xdata), Python, scikit-learn, Theano, Vowpal Wabbit

SAS公司產(chǎn)品：JMP, SAS Base, SAS Enterprise Miner

MATLAB、R語言等統(tǒng)計工具：Gnu Octave, MATLAB, Orange, R, RapidMiner, Rattle, Weka

IBM公司產(chǎn)品：IBM Cognos, IBM SPSS Modeler, IBM SPSS Statistics, IBM Watson Analytics

Linux工具和SQLang：Actian, C/C++, Perl, SQLang, Unix shell/awk/gawk

深度學習：Caffe, Pylearn2

商務智能軟件：Pentaho and QlikView

數(shù)據(jù)分析平臺：Datameer and Zementis

Excel和Word統(tǒng)計工具：XLSTAT for Excel

其它：Other Deep Learning tools, Other free analytics/data mining tools, Other Hadoop/HDF-based tools, Other paid analytics/data mining/data science software, Other programming languages

數(shù)據(jù)可視化：C4.5/C5.0/See5, Miner3D, Oracle Data Miner

總結(jié)

數(shù)據(jù)科學家在選擇大數(shù)據(jù)、數(shù)據(jù)挖掘和數(shù)據(jù)分析工具時，更傾向于有一定生態(tài)基礎的工具，這樣各個工具間可以相互支持。

為了提高在大數(shù)據(jù)項目中成功的機會，選擇正確的工具是非常重要的。沒有一個孤立的工具能夠做所有的數(shù)據(jù)分析，職業(yè)的數(shù)據(jù)專家趨向于使用不止一種相關的工具(分析中發(fā)現(xiàn)，數(shù)據(jù)專家平均使用5種數(shù)據(jù)分析工具)。你可以根據(jù)使用相關工具的數(shù)據(jù)專家來決定自己的選擇。

另外一個觀點是，要選擇大廠的產(chǎn)品，比如，IBM、微軟和SAS，大品牌的產(chǎn)品更豐富，可以使得你的產(chǎn)品更容易擴展。

工具降維數(shù)據(jù)挖掘