數(shù)據(jù)挖掘是指這個(gè)過(guò)程:在龐大數(shù)據(jù)集當(dāng)中發(fā)現(xiàn)模式,將它轉(zhuǎn)換成有效的信息。該技術(shù)利用特定的算法、統(tǒng)計(jì)分析、人工智能和數(shù)據(jù)庫(kù)系統(tǒng),從龐大數(shù)據(jù)集中提取信息,并轉(zhuǎn)換成易于理解的形式。本文介紹了廣泛用于大數(shù)據(jù)行業(yè)的10種綜合數(shù)據(jù)挖掘工具。
1. Rapid Miner
Rapid Miner是一個(gè)數(shù)據(jù)科學(xué)軟件平臺(tái),為數(shù)據(jù)準(zhǔn)備、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、文本挖掘和預(yù)測(cè)分析提供一種集成環(huán)境。它是領(lǐng)先的數(shù)據(jù)挖掘開(kāi)源系統(tǒng)之一。該程序完全用Java編程語(yǔ)言編寫(xiě)。該程序提供了一個(gè)選項(xiàng),以便用戶試用大量可任意嵌套的操作符,這些操作符在XML文件中有詳細(xì)說(shuō)明,可由Rapid Miner的圖形用戶界面來(lái)構(gòu)建。
2. Oracle Data Mining
它是Oracle高級(jí)分析數(shù)據(jù)庫(kù)的代表。市場(chǎng)領(lǐng)先的公司用它最大限度地發(fā)掘數(shù)據(jù)的潛力,做出準(zhǔn)確的預(yù)測(cè)。該系統(tǒng)配合強(qiáng)大的數(shù)據(jù)算法,鎖定最佳客戶。此外,它可識(shí)別異常情況和交叉銷(xiāo)售機(jī)會(huì),讓用戶能夠根據(jù)需要運(yùn)用不同的預(yù)測(cè)模型。此外,它以所需的方式定制客戶畫(huà)像。
3. IBM SPSS Modeler
說(shuō)到大規(guī)模項(xiàng)目,IBM SPSS Modeler最適合。在這個(gè)建模器中,文本分析及其最先進(jìn)的可視化界面極具價(jià)值。它有助于生成數(shù)據(jù)挖掘算法,基本上不需要編程。它可廣泛用于異常檢測(cè)、貝葉斯網(wǎng)絡(luò)、CARMA、Cox回歸以及使用多層感知器和反向傳播學(xué)習(xí)的基本神經(jīng)網(wǎng)絡(luò)。
4. KNIME
Konstanz Information Miner是一個(gè)開(kāi)源數(shù)據(jù)分析平臺(tái)。你可以迅速在其中部署、擴(kuò)展和熟悉數(shù)據(jù)。在商業(yè)智能界,KNIME號(hào)稱(chēng)是有助于為毫無(wú)經(jīng)驗(yàn)的用戶提供預(yù)測(cè)智能的平臺(tái)。此外,數(shù)據(jù)驅(qū)動(dòng)的創(chuàng)新系統(tǒng)有助于發(fā)掘數(shù)據(jù)潛力。此外,它包括數(shù)千個(gè)模塊和隨時(shí)可用的示例以及一大批集成的工具和算法。
5. Python
Python是一種免費(fèi)的開(kāi)源語(yǔ)言,因易用性常常與R相提并論。與R不同,Python學(xué)起來(lái)往往很容易上手,易于使用。許多用戶發(fā)現(xiàn)可以在幾分鐘內(nèi)開(kāi)始構(gòu)建數(shù)據(jù),并進(jìn)行極其復(fù)雜的親和度分析。只要你熟悉變量、數(shù)據(jù)類(lèi)型、函數(shù)、條件語(yǔ)句和循環(huán)等基本編程概念,最常見(jiàn)的業(yè)務(wù)用例數(shù)據(jù)可視化就很簡(jiǎn)單。
6.火車(chē)采集器
火車(chē)采集器由合肥樂(lè)維信息技術(shù)有限公司開(kāi)發(fā),是一款專(zhuān)業(yè)的網(wǎng)絡(luò)數(shù)據(jù)采集/信息挖掘處理軟件,通過(guò)靈活的配置,可以很輕松迅速地從網(wǎng)頁(yè)上抓取結(jié)構(gòu)化的文本、圖片、文件等資源信息,可編輯篩選處理后選擇發(fā)布到網(wǎng)站后臺(tái),各類(lèi)文件或其他數(shù)據(jù)庫(kù)系統(tǒng)中。