亚洲精品一二三区尤物tv,2020人妻中文乱码在线,亚洲成人娱乐网

數(shù)據(jù)可挖掘的知識(shí)類型

責(zé)任編輯：editor005

作者：十一城

2015-01-09 14:02:13

摘自：36大數(shù)據(jù)

概念類描述就是通過(guò)對(duì)某類對(duì)象關(guān)聯(lián)數(shù)據(jù)的匯總，分析和比較，用匯總的簡(jiǎn)潔的精確的方式對(duì)此類對(duì)象的內(nèi)涵進(jìn)行描述，并概括這類對(duì)象的有關(guān)特征。也就是說(shuō)，預(yù)測(cè)用于預(yù)測(cè)數(shù)據(jù)對(duì)象的連續(xù)取值，如：可以構(gòu)造一個(gè)分類模型來(lái)對(duì)銀行貸款進(jìn)行風(fēng)險(xiǎn)評(píng)估（安全或危險(xiǎn)）；

數(shù)據(jù)挖掘

　　一、概念/類描述

概念/類描述就是通過(guò)對(duì)某類對(duì)象關(guān)聯(lián)數(shù)據(jù)的匯總，分析和比較，用匯總的簡(jiǎn)潔的精確的方式對(duì)此類對(duì)象的內(nèi)涵進(jìn)行描述，并概括這類對(duì)象的有關(guān)特征。概念描述分為：特征性描述和區(qū)別性描述。

特征性描述：是指從與某類對(duì)象相關(guān)的一組數(shù)據(jù)中提取出關(guān)于這些對(duì)象的共同特征。生成一個(gè)類的特征性描述只涉及該類對(duì)象中所有對(duì)象的同性。。

區(qū)別性描述：描述兩個(gè)或者更多不同類對(duì)象之間的差異。生成區(qū)別性描述則涉及目標(biāo)類和對(duì)比類中對(duì)象的共性。

數(shù)據(jù)特征的輸出可以用多種形式提供：包括餅圖，條圖，曲線，多維數(shù)據(jù)方和包括交叉表在內(nèi)的多維表。結(jié)果描述也可以用泛化關(guān)系或規(guī)則（稱作特征性規(guī)則）形式提供

例如：利用面向?qū)傩缘臍w納方法（AOI），在一個(gè)商場(chǎng)數(shù)據(jù)庫(kù)（2000銷售）中進(jìn)行屬性歸納操作，獲得了如下的歸納結(jié)果：

表2-1 AOI方法挖掘結(jié)果表格表示示意描述

數(shù)據(jù)挖掘

區(qū)別性描述是將目標(biāo)類對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性比較，這種比較必須是在具備可比性的兩個(gè)或多個(gè)類之間進(jìn)行。

例如，對(duì)某校講師和副教授的特征進(jìn)行比較，可能會(huì)得到這樣一條規(guī)則： “講師：（78%）（paper<3）and (teaching course<2)”，而 “副教授：（66%）（paper>=3）and (teaching course>=2)”；該對(duì)比規(guī)則表示該校講師中約有四分至三的人發(fā)表論文少于三篇且主講課程不超過(guò)一門；而對(duì)比之下該校副教授中約有三分至二的人發(fā)表論文不少于三篇且主講課程不少于一門。

二、關(guān)聯(lián)模式

關(guān)聯(lián)模式挖掘旨在從大量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)特征之間或者數(shù)據(jù)之間的相互依賴關(guān)系。這種存在于給定數(shù)據(jù)集中的頻繁出現(xiàn)的關(guān)聯(lián)模式，又稱為關(guān)聯(lián)規(guī)則。關(guān)聯(lián)可以分為簡(jiǎn)單關(guān)聯(lián)，時(shí)序關(guān)聯(lián)，因果關(guān)聯(lián)等。這些關(guān)聯(lián)并不總是事先知道，而是通過(guò)數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)分析獲得的，其對(duì)商業(yè)決策具有重要的價(jià)值，因而關(guān)聯(lián)分析廣泛用于市場(chǎng)營(yíng)銷，事物分析等領(lǐng)域。

挖掘關(guān)聯(lián)知識(shí)的一個(gè)典型應(yīng)用實(shí)例就是市場(chǎng)購(gòu)物分析。根據(jù)被放到一個(gè)購(gòu)物袋的（購(gòu)物）內(nèi)容記錄數(shù)據(jù)而發(fā)現(xiàn)的不同（被購(gòu)買）商品之間所存在的關(guān)聯(lián)知識(shí)無(wú)疑將會(huì)幫助商家分析顧客的購(gòu)買習(xí)慣。發(fā)現(xiàn)常在一起被購(gòu)買的商品（關(guān)聯(lián)知識(shí)）將幫助商家指定有針對(duì)性的市場(chǎng)策略。

比如：顧客在購(gòu)買牛奶時(shí)，是否也可能同時(shí)購(gòu)買面包或會(huì)購(gòu)買哪個(gè)牌子的面包，顯然能夠回答這些問(wèn)題的有關(guān)信息肯定回有效地幫助商家進(jìn)行有針對(duì)性的促銷，以及進(jìn)行合適的貨架商品擺放。如可以將牛奶和面包放在相近的地方或許會(huì)促進(jìn)這兩個(gè)商品的銷售。

根據(jù)關(guān)聯(lián)規(guī)則所涉及變量的多少，可以分為多維關(guān)聯(lián)規(guī)則和單維關(guān)聯(lián)規(guī)則，通常，關(guān)聯(lián)規(guī)則具有：X=>Y的形式，即：A1^…^Am=>B1^…^Bn的規(guī)則，其中, Ai (i屬于{1,…,m}), Bj (j屬于{1,…,n})是屬性-值對(duì)。關(guān)聯(lián)規(guī)則X => Y解釋為“滿足X中條件的數(shù)據(jù)庫(kù)元組多半也滿足Y中條件”。

例如：一個(gè)數(shù)據(jù)挖掘系統(tǒng)可以從一個(gè)商場(chǎng)的銷售(交易事務(wù)處理)記錄數(shù)據(jù)中，挖掘出如下所示的關(guān)聯(lián)規(guī)則： age(X,”20-29”)∧income(X,”20K-30K”) Tbuys(X，”mp3”)[support=2%,confidence=60%]上述關(guān)聯(lián)規(guī)則表示：該商場(chǎng)有的顧客年齡在20歲到29歲且收入在2 萬(wàn)到3萬(wàn)之間，這群顧客中有60%的人購(gòu)買了MP3，或者說(shuō)這群顧客購(gòu)買MP3的概率為六成。這一規(guī)則涉及到年齡、收入和購(gòu)買三個(gè)變量(即三維)，可稱為多維關(guān)聯(lián)規(guī)則。

對(duì)于一個(gè)商場(chǎng)經(jīng)理，或許更想知道哪些商品是常被一起購(gòu)買，描述這種情況的一條關(guān)聯(lián)規(guī)則可能是：Contains(X,”computer”) =>contain(X,”software”) [support=1%,confidence=60%]上述關(guān)聯(lián)規(guī)則表示：該商場(chǎng)1%銷售交易事物記錄中包含“computer”和 “software”兩個(gè)商品；而對(duì)于一條包含（購(gòu)買）“computer”商品的交易事物記錄有60%可能也包含（購(gòu)買）”software”商品。這條記錄中由于只涉及到購(gòu)買事物這一個(gè)變量，所以稱為單維關(guān)聯(lián)規(guī)則。

三、分類

分類是數(shù)據(jù)挖掘中一項(xiàng)非常重要的任務(wù)，利用分類可以從數(shù)據(jù)集中提取描述數(shù)據(jù)類的一個(gè)函數(shù)或模型（也常稱為分類器），并把數(shù)據(jù)集中的每個(gè)對(duì)象歸結(jié)到某個(gè)已知的對(duì)象類中。從機(jī)器學(xué)習(xí)的觀點(diǎn)，分類技術(shù)是一種有指導(dǎo)（我們通常稱之為有監(jiān)督）的學(xué)習(xí)，即每個(gè)訓(xùn)練樣本的數(shù)據(jù)對(duì)象已經(jīng)有類的標(biāo)識(shí)，通過(guò)學(xué)習(xí)可以形成表達(dá)數(shù)據(jù)對(duì)象與類標(biāo)識(shí)間對(duì)應(yīng)的知識(shí)。從這個(gè)意義上說(shuō)，數(shù)據(jù)挖掘的目標(biāo)就是根據(jù)樣本數(shù)據(jù)形成的類知識(shí)并對(duì)源數(shù)據(jù)進(jìn)行分類，進(jìn)而也可以預(yù)測(cè)未來(lái)數(shù)據(jù)的分類。（十一城注：這里的分類和日常生活中的分類含義有些不一樣，它是將數(shù)據(jù)映射到預(yù)先定好的群組或者類中。所以很明顯，它是有監(jiān)督/指導(dǎo)的，即它預(yù)先定好了東西來(lái)引導(dǎo)別人分類。）

分類挖掘所獲的分類模型可以采用多種形式加以描述輸出，其中主要的表示方法有：分類規(guī)則（IF-THEN），決策樹（decision tree），數(shù)學(xué)公式（mathematical formulae）和神經(jīng)網(wǎng)絡(luò)。

決策樹是一個(gè)類似于流程圖的結(jié)構(gòu)，每個(gè)節(jié)點(diǎn)代表一個(gè)屬性上的值，每個(gè)分枝代表測(cè)試的一個(gè)輸出，樹葉代表類或者類分布。決策樹容易轉(zhuǎn)換成分類規(guī)則。

神經(jīng)網(wǎng)絡(luò)用于分類的時(shí)候，是一組類似于神經(jīng)元的處理單元，單元之間加權(quán)連接。

另外，最近有興起了一種新的方法—粗糙集（rough set）其知識(shí)表示是生產(chǎn)式規(guī)則。

分類通常用來(lái)預(yù)測(cè)對(duì)象的類標(biāo)號(hào)。例如，銀行信貸部門可以根據(jù)一個(gè)顧客信用信息數(shù)據(jù)庫(kù)，將功課的信用等級(jí)記錄為一般或良好，然后根據(jù)挖掘得出信用良好的顧客信息特征，應(yīng)用這些特征描述，可以有效發(fā)現(xiàn)優(yōu)質(zhì)客戶。這一分類過(guò)程主要含有兩個(gè)步驟：

（1）建立一個(gè)已知數(shù)據(jù)集類別或概念的模型。

數(shù)據(jù)挖掘

　?。?）對(duì)學(xué)習(xí)所獲模型的準(zhǔn)確率進(jìn)行測(cè)試。如下圖所示

數(shù)據(jù)挖掘

　　四、聚類分析

與分類技術(shù)不同，在機(jī)器學(xué)習(xí)中，聚類是一種無(wú)指導(dǎo)學(xué)習(xí)。也就是說(shuō)，聚類分析是在預(yù)先不知道欲劃分類的情況下，根據(jù)信息相似度原則進(jìn)行信息集聚的一種方法。聚類的目的是使得屬于同一類別的個(gè)體之間的差別盡可能的小，而不同類別上的個(gè)體見(jiàn)的差別盡可能的大。因此，聚類的意義就在于將觀察到的內(nèi)容組織成類分層結(jié)構(gòu)，把類似的事物組織在一起。通過(guò)聚類，人們能夠識(shí)別密集的和稀疏的區(qū)域，因而發(fā)現(xiàn)全局的分布模式，以及數(shù)據(jù)屬性之間的有趣的關(guān)系。（十一城注：聚類和分類的區(qū)別在于聚類是無(wú)監(jiān)督學(xué)習(xí)，分類是有監(jiān)督學(xué)習(xí)。聚類其實(shí)也可以理解為是一種分類，只是它這種分類）

數(shù)據(jù)聚類分析是一個(gè)正在蓬勃發(fā)展的領(lǐng)域。聚類技術(shù)主要是以統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法為基礎(chǔ)。比較有代表性的聚類技術(shù)是基于幾何距離的聚類方法，如歐氏距離、曼哈坦（Manhattan）距離、明考斯基（Minkowski）距離等。

聚類分析廣泛應(yīng)用于商業(yè)、生物、地理、網(wǎng)絡(luò)服務(wù)等多種領(lǐng)域。例如，聚類可以幫助市場(chǎng)分析人員從客戶基本庫(kù)中發(fā)現(xiàn)不同的客戶群，并能用不同的購(gòu)買模式來(lái)刻畫不同的客戶群的特征，如圖2-6顯示了一個(gè)城市內(nèi)顧客位置的二維圖，數(shù)據(jù)點(diǎn)的三個(gè)簇是顯而易見(jiàn)的。聚類還可以從地球觀測(cè)數(shù)據(jù)庫(kù)中幫助識(shí)別具有相似土地使用情況的區(qū)域；以及可以幫助分類識(shí)別互聯(lián)網(wǎng)上的文檔以便進(jìn)行信息發(fā)現(xiàn)等等。

數(shù)據(jù)挖掘

　　五、預(yù)測(cè)

預(yù)測(cè)型知識(shí)（Prediction）是指由歷史的和當(dāng)前的數(shù)據(jù)產(chǎn)生的并能推測(cè)未來(lái)數(shù)據(jù)趨勢(shì)的知識(shí)。這類知識(shí)可以被認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí)，因此上面介紹的關(guān)聯(lián)知識(shí)挖掘方法可以應(yīng)用到以時(shí)間為關(guān)鍵屬性的源數(shù)據(jù)挖掘中。

前面介紹分類知識(shí)挖掘時(shí)曾經(jīng)提到過(guò)：分類通常用來(lái)預(yù)測(cè)對(duì)象的類標(biāo)號(hào)。然而，在某些應(yīng)用中，人們可能希望預(yù)測(cè)某些遺漏的或不知道的數(shù)據(jù)值，而不是類標(biāo)號(hào)。當(dāng)被預(yù)測(cè)的值是數(shù)值數(shù)據(jù)時(shí)，通常稱之為預(yù)測(cè)。

也就是說(shuō)，預(yù)測(cè)用于預(yù)測(cè)數(shù)據(jù)對(duì)象的連續(xù)取值，如：可以構(gòu)造一個(gè)分類模型來(lái)對(duì)銀行貸款進(jìn)行風(fēng)險(xiǎn)評(píng)估（安全或危險(xiǎn)）；也可建立一個(gè)預(yù)測(cè)模型以利用顧客收入與職業(yè)（參數(shù)）預(yù)測(cè)其可能用于購(gòu)買計(jì)算機(jī)設(shè)備的支出大小

數(shù)據(jù)挖掘

預(yù)測(cè)型知識(shí)的挖掘可以利用統(tǒng)計(jì)學(xué)中的回歸方法，通過(guò)歷史數(shù)據(jù)直接產(chǎn)生連續(xù)的對(duì)未來(lái)數(shù)據(jù)的預(yù)測(cè)值；可以借助于經(jīng)典的統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等技術(shù)。無(wú)論如何，經(jīng)典的統(tǒng)計(jì)學(xué)方法是挖掘預(yù)測(cè)知識(shí)的基礎(chǔ)。

六、時(shí)間序列

具有一個(gè)或多個(gè)時(shí)間屬性的預(yù)測(cè)應(yīng)用稱為時(shí)間序列問(wèn)題。時(shí)間序列是數(shù)據(jù)存在的特殊形式，序列的過(guò)去值會(huì)影響到將來(lái)值，這種影響的大小以及影響的方式可由時(shí)間序列中的趨勢(shì)周期及非平穩(wěn)等行為來(lái)刻畫。

例如：系統(tǒng)調(diào)用日志記錄了操作系統(tǒng)及其系統(tǒng)進(jìn)程調(diào)用的時(shí)間序列，通過(guò)對(duì)正常調(diào)用序列的學(xué)習(xí)可以預(yù)測(cè)隨后發(fā)生的系統(tǒng)調(diào)用序列、發(fā)現(xiàn)異常的調(diào)用。表2-4給出了一個(gè)系統(tǒng)調(diào)用數(shù)據(jù)表。這樣的數(shù)據(jù)源可以通過(guò)適當(dāng)?shù)臄?shù)據(jù)整理使之成為調(diào)用序列，如表2-5，再通相應(yīng)的挖掘算法達(dá)到跟蹤和分析操作系統(tǒng)審計(jì)數(shù)據(jù)的目的。

數(shù)據(jù)挖掘