微軟發(fā)布了用于交互式數(shù)據(jù)探索和建模的數(shù)據(jù)科學(xué)工具

責(zé)任編輯:editor004

作者:Srini Penchikala

2016-11-16 12:28:12

摘自:INFOQ

IDEAR的其他功能包括自動(dòng)變量類型檢測(cè)、變量排名和目標(biāo)泄漏識(shí)別、可視化高維數(shù)據(jù)等。由AMAR工具生成的模型報(bào)告包含模型信息、模型評(píng)價(jià)和比較以及特征排名。

微軟最近發(fā)布了兩個(gè)新的數(shù)據(jù)科學(xué)工具,用于交互式數(shù)據(jù)探索:建模和報(bào)告。這些數(shù)據(jù)科學(xué)工具被稱為交互式數(shù)據(jù)探索、分析和報(bào)告(Interactive Data Exploration, Analysis and Reporting,IDEAR)和自動(dòng)建模和報(bào)告(Automated Modeling and Reporting,AMAR)。數(shù)據(jù)科學(xué)團(tuán)隊(duì)可以通過這些數(shù)據(jù)科學(xué)工具在他們的項(xiàng)目中完成一些具體任務(wù)。

數(shù)據(jù)科學(xué)團(tuán)隊(duì)花了大量的時(shí)間寫代碼來(lái)回答數(shù)據(jù)相關(guān)的問題,如數(shù)據(jù)模式、丟失的數(shù)據(jù)元素、個(gè)體變量的分布和變換、在數(shù)據(jù)中特定的聚類模式以及機(jī)器學(xué)習(xí)(Machine Learning,ML)模型的性能等。這兩個(gè)工具可以用來(lái)在數(shù)據(jù)科學(xué)的生命周期中將這些常見的任務(wù)自動(dòng)化。其目標(biāo)是在組織內(nèi)的不同項(xiàng)目之間保持?jǐn)?shù)據(jù)科學(xué)的一致性和完整性。

交互式數(shù)據(jù)探索:

IDEAR工具可以用來(lái)探索、可視化和分析數(shù)據(jù),并提供數(shù)據(jù)洞察?;赗 Studio的Shiny庫(kù),IDEAR包含了數(shù)據(jù)導(dǎo)出和報(bào)告生成功能。數(shù)據(jù)導(dǎo)出功能可以保存相關(guān)的R腳本,生成可視化數(shù)據(jù)并保存到R日志文件中。用戶可以運(yùn)行R日志文件來(lái)自動(dòng)生成數(shù)據(jù)報(bào)告。

IDEAR的其他功能包括自動(dòng)變量類型檢測(cè)、變量排名和目標(biāo)泄漏識(shí)別、可視化高維數(shù)據(jù)等。

自動(dòng)建模和報(bào)告:

AMAR用超參數(shù)掃描來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,比較模型的準(zhǔn)確性并評(píng)估變量的重要性。在一個(gè)參數(shù)輸入文件中我們指定ML模型去運(yùn)行,指定把哪些數(shù)據(jù)用于訓(xùn)練和測(cè)試,指定參數(shù)范圍去掃描并且指定選擇最佳參數(shù)的策略。

由AMAR工具生成的模型報(bào)告包含模型信息、模型評(píng)價(jià)和比較以及特征排名。

IDEAR和AMAR工具在CRAN-R中運(yùn)行,并能夠在GitHub網(wǎng)站上找到。這個(gè)庫(kù)是團(tuán)隊(duì)數(shù)據(jù)科學(xué)過程(Team Data Science Process,TDSP)的一部分,上個(gè)月在微軟的機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)峰會(huì)上被推出。

如果你有興趣學(xué)習(xí)更多關(guān)于這些數(shù)據(jù)科學(xué)工具的內(nèi)容,請(qǐng)查看微軟Technet博客中的文章,或GitHub網(wǎng)站上的AzureTDSP Utilities。

查看英文原文:Microsoft Releases Data Science Tools for Interactive Data Exploration and Modeling

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)