數(shù)據(jù)挖掘算法與現(xiàn)實(shí)生活中的應(yīng)用案例

責(zé)任編輯:editor005

作者:周學(xué)春

2015-09-21 13:56:00

摘自:比格堆塔

相對于武漢,北京的秋來的真是早,九月初的傍晚,就能夠感覺到絲絲絲絲絲絲的涼意。常常是指購物籃分析,即消費(fèi)者常常會(huì)同時(shí)購買哪些產(chǎn)品(例如游泳褲、防曬霜),從而有助于商家的捆綁銷售。

數(shù)據(jù)挖掘

相對于武漢,北京的秋來的真是早,九月初的傍晚,就能夠感覺到絲絲絲絲絲絲的涼意。

最近兩件事挺有感覺的。

看某發(fā)布會(huì),設(shè)計(jì)師李劍葉的話挺讓人感動(dòng)的。“**的設(shè)計(jì)是內(nèi)斂和克制的…。希望設(shè)計(jì)成為一種,可以被忽略的存在感”。

其次,有感于不斷跳Tone的婦科圣手,馮唐,“有追求、敢放棄”是他的標(biāo)簽。

“如何分辨出垃圾郵件”、“如何判斷一筆交易是否屬于欺詐”、“如何判斷紅酒的品質(zhì)和檔次”、“掃描王是如何做到文字識(shí)別的”、“如何判斷佚名的著作是否出自某位名家之手”、“如何判斷一個(gè)細(xì)胞是否屬于腫瘤細(xì)胞”等等,這些問題似乎都很專業(yè),都不太好回答。但是,如果了解一點(diǎn)點(diǎn)數(shù)據(jù)挖掘(Data Mining)的知識(shí),你,或許會(huì)有柳暗花明的感覺。

的確,數(shù)據(jù)挖掘無處不在。它和生活密不可分,就像空氣一樣,彌漫在你的周圍。但是,很多時(shí)候,你并不能意識(shí)到它。因此,它是陌生的,也是熟悉的。

本文,主要想簡單介紹下數(shù)據(jù)挖掘中的算法,以及它包含的類型。然后,通過現(xiàn)實(shí)中觸手可及的、活生生的案例,去詮釋它的真實(shí)存在。

一、數(shù)據(jù)挖掘的算法類型

數(shù)據(jù)挖掘

一般來說,數(shù)據(jù)挖掘的算法包含四種類型,即分類、預(yù)測、聚類、關(guān)聯(lián)。前兩種屬于有監(jiān)督學(xué)習(xí),后兩種屬于無監(jiān)督學(xué)習(xí),屬于描述性的模式識(shí)別和發(fā)現(xiàn)。

(一)有監(jiān)督學(xué)習(xí)

有監(jiān)督的學(xué)習(xí),即存在目標(biāo)變量,需要探索特征變量和目標(biāo)變量之間的關(guān)系,在目標(biāo)變量的監(jiān)督下學(xué)習(xí)和優(yōu)化算法。例如,信用評(píng)分模型就是典型的有監(jiān)督學(xué)習(xí),目標(biāo)變量為“是否違約”。算法的目的在于研究特征變量(人口統(tǒng)計(jì)、資產(chǎn)屬性等)和目標(biāo)變量之間的關(guān)系。

(1)分類算法

分類算法和預(yù)測算法的最大區(qū)別在于,前者的目標(biāo)變量是分類離散型(例如,是否逾期、是否腫瘤細(xì)胞、是否垃圾郵件等),后者的目標(biāo)變量是連續(xù)型。一般而言,具體的分類算法包括,邏輯回歸、決策樹、KNN、貝葉斯判別、SVM、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等。

(2)預(yù)測算法

預(yù)測類算法,其目標(biāo)變量一般是連續(xù)型變量。常見的算法,包括線性回歸、回歸樹、神經(jīng)網(wǎng)絡(luò)、SVM等。

(二)無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí),即不存在目標(biāo)變量,基于數(shù)據(jù)本身,去識(shí)別變量之間內(nèi)在的模式和特征。例如關(guān)聯(lián)分析,通過數(shù)據(jù)發(fā)現(xiàn)項(xiàng)目A和項(xiàng)目B之間的關(guān)聯(lián)性。例如聚類分析,通過距離,將所有樣本劃分為幾個(gè)穩(wěn)定可區(qū)分的群體。這些都是在沒有目標(biāo)變量監(jiān)督下的模式識(shí)別和分析。

(1)聚類分析

聚類的目的就是實(shí)現(xiàn)對樣本的細(xì)分,使得同組內(nèi)的樣本特征較為相似,不同組的樣本特征差異較大。常見的聚類算法包括kmeans、系譜聚類、密度聚類等。

(2)關(guān)聯(lián)分析

關(guān)聯(lián)分析的目的在于,找出項(xiàng)目(item)之間內(nèi)在的聯(lián)系。常常是指購物籃分析,即消費(fèi)者常常會(huì)同時(shí)購買哪些產(chǎn)品(例如游泳褲、防曬霜),從而有助于商家的捆綁銷售。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)