如今的組織正在收集來自各種來源的日益增長的信息量,包括網(wǎng)站、企業(yè)應(yīng)用程序、社交媒體、移動設(shè)備以及日益增加的物聯(lián)網(wǎng)(IoT)。
最大的問題是:如何從這些信息中獲得真正的商業(yè)價值?數(shù)據(jù)挖掘可以在很大程度上做出貢獻(xiàn)。數(shù)據(jù)挖掘是通過大量數(shù)據(jù)集進(jìn)行分類的自動化過程,以通過數(shù)據(jù)分析來識別趨勢和模式,建立關(guān)系,解決業(yè)務(wù)問題或產(chǎn)生新的機(jī)會。
查看數(shù)據(jù)來了解過去發(fā)生的事情以便能夠在現(xiàn)在明智地行動只是一方面。數(shù)據(jù)挖掘工具和技術(shù)讓你可以預(yù)測未來會發(fā)生什么,并采取相應(yīng)的行動來利用即將到來的趨勢。
“數(shù)據(jù)挖掘”這個術(shù)語在IT行業(yè)中被廣泛使用。它常常被應(yīng)用于各種大規(guī)模的數(shù)據(jù)處理活動,如收集、提取、倉儲和分析數(shù)據(jù)。它還可以包括決策支持的應(yīng)用程序和技術(shù),如人工智能、機(jī)器學(xué)習(xí)和商業(yè)智能。
數(shù)據(jù)挖掘在商業(yè)和研究的很多領(lǐng)域被使用,包括產(chǎn)品開發(fā)、銷售和營銷、遺傳學(xué)和控制論——這里僅舉幾例。如果使用得當(dāng),數(shù)據(jù)挖掘與預(yù)測分析相結(jié)合可以為你提供比沒有使用這些工具的競爭對手更大的優(yōu)勢。
從數(shù)據(jù)挖掘中獲取業(yè)務(wù)價值
數(shù)據(jù)挖掘的真正價值在于能夠以數(shù)據(jù)中的模式和關(guān)系的形式挖掘隱藏的寶石,這可以用來做出對企業(yè)有重大影響的預(yù)測。
例如,如果一家公司確定特定的營銷活動導(dǎo)致在該國某些地區(qū)的某種產(chǎn)品的特定型號的銷售額非常高,而在其它地區(qū)則不然,那么它可以在將來重新調(diào)整該廣告活動以獲得最大的回報。
該技術(shù)的好處可能會因業(yè)務(wù)類型和目標(biāo)而異。例如,零售業(yè)的銷售和營銷經(jīng)理可能用不同的方式挖掘客戶信息,以提高轉(zhuǎn)化率,這種提高轉(zhuǎn)化率的方式迥異于航空公司或金融服務(wù)業(yè)。
不管是什么行業(yè),過去應(yīng)用于銷售模式和客戶行為的數(shù)據(jù)挖掘都可用于創(chuàng)建預(yù)測未來銷售和行為的模型。
數(shù)據(jù)挖掘也有助于取消可能損害企業(yè)的活動。例如,你可以使用數(shù)據(jù)挖掘來提高產(chǎn)品的安全性,或檢測保險和金融服務(wù)交易中的欺詐活動。
數(shù)據(jù)挖掘的應(yīng)用
數(shù)據(jù)挖掘幾乎適用于所有行業(yè)的各種應(yīng)用。
·零售商可以部署數(shù)據(jù)挖掘,以更好地識別人們根據(jù)過去的購買習(xí)慣可能購買哪個產(chǎn)品,或者哪些商品在一年的某些時間可能熱賣。這可以幫助商家規(guī)劃庫存和存儲布局。
·銀行和其他它金融服務(wù)提供商可以挖掘與其客戶帳戶、交易和渠道偏好相關(guān)的數(shù)據(jù),以更好地滿足他們的需求。它們還可以從他們的網(wǎng)站和社交媒體互動中分析數(shù)據(jù),以增加現(xiàn)有客戶的忠誠度并吸引新客戶。
·制造企業(yè)可以使用數(shù)據(jù)挖掘在生產(chǎn)過程中發(fā)現(xiàn)模式,從而可以精確地識別出瓶頸和有缺陷的方法,并設(shè)法提高效率。它們還可以將知識從數(shù)據(jù)挖掘應(yīng)用于產(chǎn)品設(shè)計(jì),并根據(jù)客戶體驗(yàn)的反饋進(jìn)行調(diào)整。
·教育機(jī)構(gòu)可以從數(shù)據(jù)挖掘中受益,例如分析數(shù)據(jù)集,以預(yù)測學(xué)生的未來學(xué)習(xí)行為和表現(xiàn),然后利用這些知識來改進(jìn)教學(xué)方法或課程。
·醫(yī)療保健提供者可以挖掘和分析數(shù)據(jù),以確定向患者提供護(hù)理和降低成本的更好的方法。在數(shù)據(jù)挖掘的幫助下,他們可以預(yù)測需要照顧的病人數(shù)量以及患者需要什么類型的服務(wù)。在生命科學(xué)領(lǐng)域,數(shù)據(jù)挖掘可用于從大量生物數(shù)據(jù)中獲取洞察,幫助開發(fā)新藥和其他治療方法。
·在包括醫(yī)療保健和零售在內(nèi)的多個行業(yè),你可以使用數(shù)據(jù)挖掘來檢測詐騙和其它濫用行為——比傳統(tǒng)的識別此類活動的方法要快得多。
數(shù)據(jù)挖掘的關(guān)鍵組成部分
數(shù)據(jù)挖掘的過程包含滿足不同需求的幾個不同的組件:
·預(yù)處理。在應(yīng)用數(shù)據(jù)挖掘算法之前,你需要構(gòu)建一個目標(biāo)數(shù)據(jù)集。數(shù)據(jù)的一個常見來源是數(shù)據(jù)集市或倉庫。你需要執(zhí)行預(yù)處理才能分析數(shù)據(jù)集。
·數(shù)據(jù)清洗和準(zhǔn)備。目標(biāo)數(shù)據(jù)集必須清理和準(zhǔn)備,以消除“噪點(diǎn)”,處理缺失值,過濾外圍的數(shù)據(jù)點(diǎn)(用于異常檢測)以消除錯誤或進(jìn)行進(jìn)一步的探索,創(chuàng)建分段規(guī)則以及執(zhí)行與數(shù)據(jù)準(zhǔn)備相關(guān)的其它功能。
·關(guān)聯(lián)規(guī)則學(xué)習(xí)(也稱為市場籃子分析)。這些工具搜索數(shù)據(jù)集中的變量之間的關(guān)系,例如確定商店中的哪些商品通常被一起購買。
·集群。數(shù)據(jù)挖掘的這個特征用于發(fā)現(xiàn)數(shù)據(jù)集中的某種程度上互相類似的組和結(jié)構(gòu),而不用數(shù)據(jù)中的已知結(jié)構(gòu)。
·分類。執(zhí)行分類的工具將已知結(jié)構(gòu)推廣到適用于新的數(shù)據(jù)點(diǎn),例如當(dāng)電子郵件應(yīng)用程序嘗試將郵件分類為合法郵件或垃圾郵件時。
·回歸。這種數(shù)據(jù)挖掘技術(shù)用于在給定特定數(shù)據(jù)集時預(yù)測一系列數(shù)值,例如銷售量、住房價值、溫度或價格。
·總計(jì)。該技術(shù)提供了數(shù)據(jù)集的精簡表示,包括可視化和報告生成。
有數(shù)十家供應(yīng)商提供數(shù)據(jù)挖掘軟件工具,一些提供專門的軟件,其它的通過開源的努力提供產(chǎn)品。
提供專門的數(shù)據(jù)挖掘軟件應(yīng)用程序的關(guān)鍵供應(yīng)商包括Angoss、Clarabridge、IBM、Microsoft,Open Text、Oracle、RapidMiner、SAS Institute和SAP。
提供開源數(shù)據(jù)挖掘軟件和應(yīng)用程序的組織包括Carrot2、Knime、Massive Online Analysis、ML-Flex、Orange、UIMA和Weka。
數(shù)據(jù)挖掘的風(fēng)險和挑戰(zhàn)
數(shù)據(jù)挖掘也有其風(fēng)險和挑戰(zhàn)。與涉及潛在的敏感或個人身份信息的使用的任何技術(shù)一樣,安全和隱私是最大的問題之一。
在基本層面上,被開采的數(shù)據(jù)必須完整、準(zhǔn)確和可靠;畢竟,你正在用它做重要的業(yè)務(wù)決策,并經(jīng)常與公眾、監(jiān)管機(jī)構(gòu)、投資者和業(yè)務(wù)合作伙伴進(jìn)行互動。現(xiàn)代數(shù)據(jù)形式還需要新型的技術(shù),例如將來自各種分布式計(jì)算環(huán)境(又稱大數(shù)據(jù)集成)的數(shù)據(jù)集合起來的技術(shù),以及諸如圖像和視頻、時間數(shù)據(jù)和空間數(shù)據(jù)等更復(fù)雜的數(shù)據(jù)組合在一起的技術(shù)。
獲取正確的數(shù)據(jù),然后將其放在一起,以便我們可以挖掘,這不是對IT的挑戰(zhàn)的結(jié)束。云、存儲和網(wǎng)絡(luò)系統(tǒng)需要實(shí)現(xiàn)數(shù)據(jù)挖掘工具的高性能。我們要把從數(shù)據(jù)挖掘中得到的信息清晰地呈現(xiàn)給希望對其進(jìn)行操作和解讀的廣大用戶。你將需要具備數(shù)據(jù)科學(xué)和相關(guān)領(lǐng)域技能的人才。
從隱私的角度來看,挖掘與人們行為方式相關(guān)的信息,他們購買什么,訪問什么網(wǎng)站等等的想法可以引起企業(yè)收集太多信息的擔(dān)憂。這不僅影響你的技術(shù)實(shí)施,而且還會影響你的業(yè)務(wù)戰(zhàn)略和風(fēng)險狀況。
除了如此徹底的追蹤個人的道德規(guī)范外,還有法律規(guī)定如何收集數(shù)據(jù)、識別一個人并共享數(shù)據(jù)。美國義務(wù)型可攜帶式健康保險法案(HIPAA)和歐盟的通用數(shù)據(jù)保護(hù)指令(GDPR)是眾所周知的。
在數(shù)據(jù)挖掘中,準(zhǔn)備本身的初始行為(例如聚集然后使數(shù)據(jù)合理化)可以揭示可能危及數(shù)據(jù)機(jī)密性的信息或模式。因此,不經(jīng)意地違反道德問題或法律要求是有可能的。
數(shù)據(jù)挖掘的每一步還需要數(shù)據(jù)保護(hù),以確保數(shù)據(jù)不被偷竊、改變或秘密訪問。安全工具包括加密、訪問控制和網(wǎng)絡(luò)安全機(jī)制。
數(shù)據(jù)挖掘是一個關(guān)鍵的區(qū)分因素
盡管存在這些挑戰(zhàn),但數(shù)據(jù)挖掘已成為很多組織IT戰(zhàn)略的重要組成部分,這些組織力圖通過收集或訪問的所有信息獲得價值。隨著預(yù)測分析、人工智能、機(jī)器學(xué)習(xí)和其它相關(guān)技術(shù)的不斷進(jìn)步,這一驅(qū)動力無疑將加速。