數(shù)據(jù)模型可以從兩個角度來區(qū)分:數(shù)據(jù)和業(yè)務(wù)。
一、數(shù)據(jù)模型
統(tǒng)計數(shù)據(jù)視角的實體模型通常指的是統(tǒng)計分析或大數(shù)據(jù)挖掘、深度學習、人工智能技術(shù)等種類的實體模型,這些模型是從科學研究視角去往界定的。
1、降維
對大量的數(shù)據(jù)和大規(guī)模的數(shù)據(jù)進行數(shù)據(jù)挖掘時,往往會面臨“維度災(zāi)害”。 數(shù)據(jù)集的維度在無限地增加,但由于計算機的處理能力和速度有限,此外,數(shù)據(jù)集的多個維度之間可能存在共同的線性關(guān)系。這會立即造成學習模型的可擴展性不足,乃至許多那時候優(yōu)化算法結(jié)果會無效。因而,人們必須減少層面總數(shù)并減少層面間共線性危害。
數(shù)據(jù)降維也稱為數(shù)據(jù)歸約或數(shù)據(jù)約減。它的目的就是為了減少數(shù)據(jù)計算和建模中涉及的維數(shù)。有兩種數(shù)據(jù)降維思想:一種是基于特征選擇的降維,另一種是基于維度變換的降維。
2、回歸
回歸是一種數(shù)據(jù)分析方法,它是研究變量X對因變量Y的數(shù)據(jù)分析。我們了解的最簡答的回歸模型就是一元線性回歸(只包含一個自變量和因變量,并且晾在這的關(guān)系可以用一條直線表示)。
回歸分析根據(jù)自變量的數(shù)量分為單回歸模型和多元回歸模型。根據(jù)影響是否是線性的,可以分為線性回歸和非線性回歸。
3、聚類
我們都聽過“物以類聚,人以群分”這個詞語,這個是聚類分析的基本思想。聚類分析法是大數(shù)據(jù)挖掘和測算中的基礎(chǔ)每日任務(wù),聚類分析法是將很多統(tǒng)計數(shù)據(jù)集中化具備“類似”特點的統(tǒng)計數(shù)據(jù)點區(qū)劃為一致類型,并最后轉(zhuǎn)化成好幾個類的方式。大量數(shù)據(jù)集中必須有相似的數(shù)據(jù)點?;谶@一假設(shè),可以區(qū)分數(shù)據(jù),并且可以找到每個數(shù)據(jù)集(分類)的特征。
4、分類
分類算法根據(jù)對己知類型訓煉集的測算和剖析,從文中發(fā)覺類型標準,為此分折新統(tǒng)計數(shù)據(jù)的類型的類別優(yōu)化算法。分類算法是解決分類問題的一種方法,是數(shù)據(jù)挖掘、機器學習和模式識別的一個重要研究領(lǐng)域。
5、關(guān)聯(lián)
關(guān)聯(lián)規(guī)則學習根據(jù)尋找最能解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則,在大量多元數(shù)據(jù)集中找到有用的關(guān)聯(lián)規(guī)則。這是一種從大量數(shù)據(jù)中找出各種數(shù)據(jù)之間關(guān)系的方法。此外,它還可以挖掘基于時間序列的各種數(shù)據(jù)之間的關(guān)系。
6、時間序列
時間序列是一種用于研究數(shù)據(jù)隨時間變化的算法,是一種常用的回歸預(yù)測方法。原則是事物的連續(xù)性。所謂連續(xù)性,是指客觀事物的發(fā)展具有規(guī)律性的連續(xù)性,事物的發(fā)展是按照其內(nèi)在規(guī)律進行的。在一定的條件下,只要規(guī)則作用的條件不發(fā)生質(zhì)的變化,事物的基本發(fā)展趨勢就會持續(xù)到未來。
7、異常數(shù)據(jù)檢測
在大多數(shù)數(shù)據(jù)挖掘或數(shù)據(jù)工作中,異常值將被視為“噪聲”,并在數(shù)據(jù)預(yù)處理過程中消除,以避免其對整體數(shù)據(jù)評估和分析挖掘的影響。然而,在某些情況下,如果數(shù)據(jù)工作的目標是關(guān)注異常值,這些異常值將成為數(shù)據(jù)工作的焦點。
數(shù)據(jù)集中的異常數(shù)據(jù)通常被稱為異常點、異常值或孤立點等。典型的特征是這些數(shù)據(jù)的特征或規(guī)則與大多數(shù)數(shù)據(jù)不一致,表現(xiàn)出“異常”的特征。檢測這些數(shù)據(jù)的方法稱為異常檢測。
二、業(yè)務(wù)模型
業(yè)務(wù)流程實體模型指的是對于某一業(yè)務(wù)流程情景而界定的,用以解決困難的某些實體模型,這種實體模型跟上邊實體模型的差別取決于情景化的運用。
1、會員數(shù)據(jù)化運營分析模型
類型:會員細分模型、會員價值模型、會員活躍度模型、會員流失預(yù)測模型、會員特征分析模型、市場營銷回應(yīng)預(yù)測模型。
2、商品數(shù)據(jù)化運營分析模型
類型:商品價格敏感度模型、新產(chǎn)品市場定位模型、銷售預(yù)測模型、商品關(guān)聯(lián)銷售模型、異常訂單檢測模型、商品規(guī)劃的最優(yōu)組合。
3、流量數(shù)據(jù)化運營分析模型
類型:流量波動檢測、渠道特征聚類、廣告整合傳播模型、流量預(yù)測模型。
4、內(nèi)容數(shù)據(jù)化運營分析模型
類型:情感分析模型、搜索優(yōu)化模型、文章關(guān)鍵字模型、主題模型、垃圾信息檢測模型。