無論您在數(shù)據(jù)的科學(xué)性問題上持哪種看法,都無法忽視數(shù)據(jù)的持續(xù)重要性,也不能輕視分析、組織和情境化數(shù)據(jù)的能力。 根據(jù)大量的就業(yè)數(shù)據(jù)和員工反饋信息統(tǒng)計,在“25個最佳美國就業(yè)機會”排行榜中,數(shù)據(jù)科學(xué)家排名第一。毫無疑問,數(shù)據(jù)科學(xué)家所做的具體工作內(nèi)容將會進一步拓展。隨著機器學(xué)習(xí)等技術(shù)變得越來越普遍,深度學(xué)習(xí)等新興領(lǐng)域?qū)ρ芯咳藛T和工程師的需求得到了巨大的推動,數(shù)據(jù)科學(xué)家們在創(chuàng)新和技術(shù)進步的浪潮中再次嶄露頭角。
編碼能力強大是很重要的,但數(shù)據(jù)科學(xué)并不專職于軟件工程(事實上,對Python很熟悉就足夠了)。數(shù)據(jù)科學(xué)家生活在編碼、統(tǒng)計學(xué)和批判性思維的交叉點上。正如喬希·威爾斯(Josh Wills)所說的那樣:“數(shù)據(jù)科學(xué)家是一個比任何程序員都要好的統(tǒng)計學(xué)家,而且比任何統(tǒng)計學(xué)家都更擅長編程。”筆者個人知道有太多的軟件工程師希望轉(zhuǎn)向數(shù)據(jù)科學(xué)家,并盲目利用機器學(xué)習(xí)框架TensorFlow或Apache Spark,而不透徹理解背后的統(tǒng)計理論。因此出現(xiàn)了“統(tǒng)計學(xué)習(xí)”,一個與機器學(xué)習(xí)有關(guān)的理論框架,包含統(tǒng)計到功能分析的一系列專業(yè)領(lǐng)域。
為什么學(xué)習(xí)統(tǒng)計學(xué)習(xí)?了解各種技術(shù)背后的想法是非常重要的,可以讓你知道如何以及何時使用它們。由簡入繁,首先要理解更簡單的方法,才好把握更復(fù)雜的方法。準確地評估一種方法的性能,了解它的工作效果多好或者多糟,這一點很重要。此外,這是一個令人興奮的研究領(lǐng)域,在科學(xué),工業(yè)和金融領(lǐng)域有著重要的應(yīng)用。最終,統(tǒng)計學(xué)習(xí)是培養(yǎng)現(xiàn)代數(shù)據(jù)科學(xué)家的基本要素。統(tǒng)計學(xué)習(xí)問題的例子有:
·確定前列腺癌的危險因素。
·根據(jù)記錄周期圖對錄制的音素進行分類。
·根據(jù)人口統(tǒng)計、飲食和臨床測量,預(yù)測是否有人會發(fā)生心臟病。
·自定義垃圾郵件檢測系統(tǒng)。
·識別手寫郵政編碼中的數(shù)字。
·將組織樣本分為幾個癌癥類別之一。
·建立人口調(diào)查數(shù)據(jù)中工資與人口變量之間的關(guān)系。
統(tǒng)計學(xué)習(xí)和機器學(xué)習(xí)之間的差異在于:
·機器學(xué)習(xí)是人工智能的一個子領(lǐng)域。
·統(tǒng)計學(xué)習(xí)是統(tǒng)計學(xué)的一個分支。
·機器學(xué)習(xí)更強調(diào)大規(guī)模應(yīng)用和預(yù)測的準確性。
·統(tǒng)計學(xué)習(xí)強調(diào)模型及其可解釋性,精確性和不確定性。
1 - 線性回歸:
在統(tǒng)計學(xué)中,線性回歸是一種通過擬合自變量與自變量之間最佳線性關(guān)系來預(yù)測目標變量的方法。最好的做法是確保每個點的形狀和實際觀測之間的所有距離之和盡可能小。形狀的適合性是“最好的”,因為在形狀的選擇上沒有其他位置會產(chǎn)生較少的誤差。線性回歸的2種主要類型是簡單線性回歸和多元線性回歸。簡單線性回歸使用一個獨立變量來通過擬合最佳線性關(guān)系來預(yù)測因變量。多重線性回歸使用多個獨立變量來通過擬合最佳線性關(guān)系來預(yù)測因變量。
選擇你在日常生活中使用的任何兩件相關(guān)的東西。如每月支出,月收入和過去三年每月的旅行次數(shù)的數(shù)據(jù)。就需要回答以下問題:
我明年的每月開支是多少?
哪個因素(每月收入或每月旅行次數(shù))在決定我的每月支出時更重要?
月收入和每月旅行如何與每月支出相關(guān)聯(lián)?
2 - 分類:
分類是一種數(shù)據(jù)挖掘技術(shù),它將類別分配給數(shù)據(jù)集合,以助進行更準確的預(yù)測和分析。有時也稱為決策樹,分類是用于對非常大的數(shù)據(jù)集進行分析的幾種方法之一。眼下有2大分類技術(shù)脫穎而出:Logistic回歸和判別分析。
Logistic回歸分析是當因變量是二分(二元)時進行的適當?shù)幕貧w分析。像所有回歸分析一樣,Logistic回歸是預(yù)測分析。 Logistic回歸用于描述數(shù)據(jù)并解釋一個相關(guān)二元變量與一個或多個標稱、序數(shù)、區(qū)間或比例級別的獨立變量之間的關(guān)系。邏輯回歸可以檢查的問題類型:
每增加一磅的超重和每天吸一包香煙,肺癌的可能性(是vs否)會發(fā)生怎樣的變化?
體重卡路里攝入量,脂肪攝入量和參與者年齡對心臟病發(fā)作是否有影響(有vs無)?
在判別分析中,先驗已知2個或更多個組或群或群,并基于所測量的特征將1個或更多個新觀察分類到1個已知群中。判別分析在每個響應(yīng)類別中分別對預(yù)測因子X的分布進行建模,然后使用貝葉斯定理將它們翻轉(zhuǎn)為給定X的值的響應(yīng)類別概率的估計。這樣的模型可以是線性的或二次的。
線性判別分析為每個觀測值計算“判別分數(shù)”,以便對它所處的響應(yīng)變量類別進行分類。這些分數(shù)是通過尋找自變量的線性組合得到的。它假設(shè)每個類別內(nèi)的觀察值都來自多變量高斯分布,預(yù)測因子的協(xié)方差在響應(yīng)變量Y的所有k水平上是共同的。
二次判別分析提供了一種替代方法。和LDA一樣,QDA假定每個Y類的觀測值都是從高斯分布中得到的。但是,與LDA不同的是,QDA假定每個類都有其自己的協(xié)方差矩陣。換句話說,預(yù)測因子不被假定在Y中的每個k水平上具有共同的方差。
3 - 重采樣方法:
重采樣是從原始數(shù)據(jù)樣本中繪制重復(fù)樣本的方法。這是統(tǒng)計推斷的非參數(shù)方法。換句話說,重采樣方法不涉及使用通用分布表來計算近似p概率值。
重采樣根據(jù)實際數(shù)據(jù)生成唯一的采樣分布。它使用實驗方法而不是分析方法來生成獨特的抽樣分布。它產(chǎn)生無偏估計,因為它是基于研究者所研究數(shù)據(jù)的所有可能結(jié)果的無偏樣本。為了理解重采樣的概念,您應(yīng)該理解術(shù)語Bootstrapping和交叉驗證:
Bootstrapping是一種技術(shù),可以幫助您在很多情況下驗證預(yù)測模型的性能、集成方法、估計模型的偏差和方差。它通過對原始數(shù)據(jù)進行替換來進行采樣,并將“未選擇”的數(shù)據(jù)點作為測試用例。我們可以做這幾次,并計算平均分作為我們的模型性能的估計。
另一方面,交叉驗證是驗證模型性能的一種技術(shù),它是通過將訓(xùn)練數(shù)據(jù)分成k個部分來完成的。我們以k - 1部分作為訓(xùn)練集,并使用“伸出部分”作為我們的測試集。我們重復(fù)k次不同的方式。最后,我們將k分數(shù)的平均值作為我們的業(yè)績估計。
通常對于線性模型,普通最小二乘法是考慮將它們適合于數(shù)據(jù)的主要標準。接下來的3種方法是可以為線性模型的擬合提供更好的預(yù)測精度和模型可解釋性的替代方法。
4 - 子集選擇:
這種方法確定了我們認為與響應(yīng)相關(guān)的p預(yù)測因子的一個子集。然后,我們使用子集特征的最小二乘擬合模型。
最佳子集選擇:這里我們對每個可能的p預(yù)測因子組合進行單獨的OLS回歸,然后查看最終的模型擬合。算法分為2個階段:(1)擬合所有包含k預(yù)測因子的模型,其中k是模型的最大長度;(2)使用交叉驗證的預(yù)測誤差選擇單個模型。使用測試或驗證錯誤非常重要,而不是訓(xùn)練錯誤來評估模型擬合,因為RSS和R 2單調(diào)增加更多的變量。最好的方法是在測試誤差估計值上交叉驗證并選擇具有最高R 2和最低RSS的模型。
向前逐步選擇考慮預(yù)測因子的一個小得多的子集。它從不含預(yù)測因子的模型開始,然后在模型中添加預(yù)測因子,直到所有預(yù)測因子都在模型中。被添加變量的順序是變量,其給出對擬合的最大的加法改進,直到?jīng)]有更多的變量使用交叉驗證的預(yù)測誤差來改進模型擬合。
向后逐步選擇開始將模型中的所有預(yù)測因子,然后迭代去除最不有用的預(yù)測因子。
混合方法遵循向前逐步回歸方法,但是,在添加每個新變量之后,該方法還可以去除對模型擬合沒有貢獻的變量。
5 - 收縮:
這種方法適合一個涉及所有p預(yù)測因子的模型,然而,估計系數(shù)相對于最小二乘估計向零收縮。這種縮水,又稱正規(guī)化,具有減少方差的作用。取決于執(zhí)行什么類型的收縮,其中一些系數(shù)可能恰好被估計為零。因此這個方法也執(zhí)行變量選擇。將系數(shù)估計收縮為零的兩個最著名的技術(shù)是嶺回歸和Lasso。
嶺回歸類似于最小二乘,通過最小化一個稍微不同的數(shù)量估計系數(shù)。像OLS一樣,嶺回歸尋求降低RSS的系數(shù)估計值,但是當系數(shù)接近于零時,它們也會有收縮懲罰。這個懲罰的作用是將系數(shù)估計收縮到零。不用進入數(shù)學(xué)計算,知道嶺回歸縮小列空間方差最小的特征是有用的。像在主成分分析中一樣,嶺回歸將數(shù)據(jù)投影到雙向空間,然后比高方差分量收縮低方差分量的系數(shù),這相當于最大和最小主分量。
嶺回歸至少有一個缺點:它包括最終模型中的所有p預(yù)測值。犯規(guī)條款將使它們中的許多接近于零,但不完全為零。這對于預(yù)測準確性來說通常不是問題,但它可能使模型更難以解釋結(jié)果。 Lasso克服了這個缺點,并且能夠迫使一些系數(shù)歸零,只要s足夠小。由于s = 1導(dǎo)致有規(guī)律的OLS回歸,當s接近0時,系數(shù)收縮為零。因此,Lasso回歸也執(zhí)行變量選擇。
6 - 維度降低:
維數(shù)減少將估計p + 1個系數(shù)的問題簡化為M + 1個系數(shù)的簡單問題,其中M
可以將主成分回歸描述為從大量變量中導(dǎo)出低維特征集合的方法。數(shù)據(jù)的第一個主要組成方向是觀測值變化最大的。換句話說,第一臺PC是盡可能接近數(shù)據(jù)的一條線。人們可以適應(yīng)不同的主要組成部分。第二個PC是與第一個PC不相關(guān)的變量的線性組合,并且受這個約束的變化最大。這個想法是主要的組成部分使用隨后正交方向的數(shù)據(jù)的線性組合捕獲數(shù)據(jù)中最大的變化。通過這種方式,我們也可以結(jié)合相關(guān)變量的效果,從可用數(shù)據(jù)中獲取更多信息,而在正則最小二乘中,我們將不得不放棄其中一個相關(guān)變量。
我們上面描述的PCR方法包括確定最能代表預(yù)測因子的X的線性組合。這些組合(方向)以無監(jiān)督的方式被識別,因為響應(yīng)Y不用于幫助確定主要組件方向。也就是說,響應(yīng)Y不監(jiān)督主成分的識別,因此不能保證最能解釋預(yù)測因子的方向?qū)τ陬A(yù)測響應(yīng)(即使經(jīng)常假設(shè))也是最好的。偏最小二乘法(PLS)是一個監(jiān)督的替代PCR。與PCR一樣,PLS是一種降維方法,它首先識別一組新的較小的特征,這些特征是原始特征的線性組合,然后通過最小二乘法擬合一個線性模型到新的M特征。然而,與PCR不同的是,PLS利用響應(yīng)變量來識別新的特征。
7 - 非線性模型:
在統(tǒng)計學(xué)中,非線性回歸是回歸分析的一種形式,其中觀測數(shù)據(jù)是由一個函數(shù)建模的,該函數(shù)是模型參數(shù)的非線性組合,并取決于一個或多個自變量。數(shù)據(jù)通過逐次逼近的方法進行擬合。以下是一些處理非線性模型的重要技巧:
如果實數(shù)的函數(shù)可以寫成區(qū)間指示函數(shù)的有限線性組合,則稱實數(shù)為函數(shù)。非正式地說,一個階梯函數(shù)是一個只有很多片段的分段常量函數(shù)。
分段函數(shù)是由多個子函數(shù)定義的函數(shù),每個子函數(shù)應(yīng)用于主函數(shù)域的一定間隔。分段實際上是表達函數(shù)的一種方式,而不是函數(shù)本身的一個特征,但是具有額外的限定,可以描述函數(shù)的性質(zhì)。例如,分段多項式函數(shù)是在其每個子域上是多項式的函數(shù),但是每個子域上可能是不同的。
樣條函數(shù)是由多項式分段定義的特殊函數(shù)。在計算機圖形學(xué)中,樣條是指分段多項式參數(shù)曲線。由于其結(jié)構(gòu)簡單,評估方便和準確,以及通過曲線擬合和交互式曲線設(shè)計逼近復(fù)雜形狀的能力,樣條曲線是流行的曲線。
廣義加性模型是一種線性預(yù)測模型,其中線性預(yù)測變量線性依賴于某些預(yù)測變量的未知光滑函數(shù),興趣集中在對這些光滑函數(shù)的推理上。
8 - 基于樹的方法:
基于樹的方法可以用于回歸和分類問題。這些涉及將預(yù)測空間分層或分割成若干簡單區(qū)域。由于用于分割預(yù)測變量空間的分裂規(guī)則集合可以在樹中進行概括,所以這些類型的方法被稱為決策樹方法。下面的方法生成多個樹,然后結(jié)合在一起產(chǎn)生一個單一的共識預(yù)測。
套袋(Bagging)是減少預(yù)測方差的方法,通過使用重復(fù)組合來生成原始數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù),從而生成與原始數(shù)據(jù)相同的多樣性。通過增加你的訓(xùn)練集的大小,你不能提高模型的預(yù)測力,只是減少方差,勉強把預(yù)測調(diào)整到預(yù)期的結(jié)果。
提升(Boosting)是一種使用幾種不同的模型計算產(chǎn)出的方法,然后使用加權(quán)平均方法對結(jié)果進行平均。通過改變你的加權(quán)公式,結(jié)合這些方法的優(yōu)點和缺陷,你可以使用不同的狹義調(diào)整模型,為更廣泛的輸入數(shù)據(jù)提供一個很好的預(yù)測力。
隨機森林(random forest )算法實際上非常類似于套袋。你也可以繪制訓(xùn)練集的隨機bootstrap樣本。但是,除了自舉樣本之外,還可以繪制隨機子集來訓(xùn)練單個樹;在套袋中,你給每個樹一套完整功能。由于隨機特征選擇,與常規(guī)套袋相比,樹木之間的相互獨立性更高,這通常會帶來更好的預(yù)測性能(由于更好的方差偏差權(quán)衡),而且速度更快,因為每棵樹只能從功能的一個子集。
9 - 支持向量機:
SVM是機器學(xué)習(xí)中監(jiān)督學(xué)習(xí)模型中的一種分類技術(shù)。通俗地說,它涉及于找到超平面(2D中的線,3D中的平面和更高維中的超平面,更正式地說,超平面是n維空間中的n維空間)最大保證金從本質(zhì)上講,它是一個約束優(yōu)化問題,其邊界被最大化,受限于它對數(shù)據(jù)進行了完美的分類(硬邊緣)。
這種“支持”這個超平面的數(shù)據(jù)點被稱為“支持向量”。對于兩類數(shù)據(jù)不能線性分離的情況,這些點被投影到可能線性分離的分解(高維)空間。涉及多個類的問題可以分解為多個一對一或者一對二的分類問題。
10 - 無監(jiān)督學(xué)習(xí):
到目前為止,我們只討論了監(jiān)督學(xué)習(xí)技術(shù),其中組是已知的,提供給算法的經(jīng)驗是實際實體和它們所屬的組之間的關(guān)系。當數(shù)據(jù)的組(類別)未知時,可以使用另一組技術(shù)。它們被稱為無監(jiān)督的,因為它會留在學(xué)習(xí)算法中以找出所提供的數(shù)據(jù)中的模式。聚類是無監(jiān)督學(xué)習(xí)的一個例子,其中不同的數(shù)據(jù)集被聚類為密切相關(guān)的項目組。下面是最廣泛使用的無監(jiān)督學(xué)習(xí)算法的列表:
主成分分析通過識別一組具有最大方差和相互不相關(guān)的特征的線性組合來幫助產(chǎn)生數(shù)據(jù)集的低維表示。這種線性維度技術(shù)有助于理解變量在無監(jiān)督環(huán)境下的潛在相互作用。
k-Means聚類:根據(jù)到群集質(zhì)心的距離將數(shù)據(jù)分為k個不同的集群。
分層集群:通過創(chuàng)建集群樹來構(gòu)建集群的多級分層結(jié)構(gòu)。
以上是一些基本的統(tǒng)計技術(shù)的簡單解釋與說明,可以幫助數(shù)據(jù)科學(xué)項目經(jīng)理和主管人員更好地理解他們的數(shù)據(jù)科學(xué)小組背后隱藏的內(nèi)容。實際上,一些數(shù)據(jù)科學(xué)小組純粹通過python和R庫運行算法。他們中的大多數(shù)甚至不必考慮潛在的數(shù)學(xué)問題。但是,能夠理解統(tǒng)計分析的基礎(chǔ)知識可以為您的團隊提供更好的方法。