數(shù)據(jù)科學是對大數(shù)據(jù)或物聯(lián)網(wǎng)(IoT)環(huán)境進行的任何分析練習的核心。數(shù)據(jù)科學涉及廣泛的技術,業(yè)務和機器學習算法。數(shù)據(jù)科學的目的不僅是做機器學習或統(tǒng)計分析,而且還可以從沒有統(tǒng)計知識的用戶理解的數(shù)據(jù)中得出洞察。
在諸如大數(shù)據(jù)和物聯(lián)網(wǎng)等快節(jié)奏的環(huán)境中,數(shù)據(jù)類型可能隨時間而變化,變得難以每次都維護和重新建立模型。這個差距需要一種自動化的方式來管理這些環(huán)境中的數(shù)據(jù)科學算法。數(shù)據(jù)科學的興起旨在將我們從基于規(guī)則的系統(tǒng)轉移到機器自身學習規(guī)則的系統(tǒng)中。機器學習使數(shù)據(jù)科學固有地部分自動化。需要手動干預的數(shù)據(jù)科學的一半仍然是自動化的。然而,這些領域涉及到人們的經驗和智慧:數(shù)據(jù)科學家,商業(yè)專家,軟件開發(fā)人員,數(shù)據(jù)集成商,目前有助于使數(shù)據(jù)科學項目運作的人。這使得數(shù)據(jù)科學的各個方面都難以實現(xiàn)自動化。但是,我們可以將數(shù)據(jù)科學自動化視為兩級架構,其中:
不同的數(shù)據(jù)科學學科/組件是自動化的
所有單獨的自動化組件都是互連的,以形成一個連貫的數(shù)據(jù)科學系統(tǒng)
我們可以將數(shù)據(jù)科學系統(tǒng)視為自動化,只要它們足夠能夠在我們拋出數(shù)據(jù)集時解決我們的問題。此外,應該足夠聰明地向我們提供我們可以理解的語言中的所有可能的解決方案。
數(shù)據(jù)準備,機器學習,領域知識和結果解釋是成功執(zhí)行數(shù)據(jù)科學項目所需的四個主要任務。所有這些任務都必須轉換為自動化模塊,以創(chuàng)建一個自動化的數(shù)據(jù)科學系統(tǒng)(圖1)。
數(shù)據(jù)準備自動化
數(shù)據(jù)準備是每次創(chuàng)建模型時必須完成的重復任務。數(shù)據(jù)提取,數(shù)據(jù)清理和數(shù)據(jù)轉換(例如估算空值和算法特定轉換)是屬于此類別的一些任務。許多組織將這些任務自動化,并將引擎標記為數(shù)據(jù)科學自動化工具。但是,大多數(shù)這些工具使用基于規(guī)則的邏輯來自動執(zhí)行數(shù)據(jù)預處理任務。這是正確的做法嗎?我們是否需要基于規(guī)則的系統(tǒng)來自動化數(shù)據(jù)科學,這是終止基于規(guī)則的系統(tǒng)誕生的?不,我們需要通過機器學習自動進行數(shù)據(jù)預處理。例如,關于什么預處理功能必須應用于問題的數(shù)據(jù)的決定是由機器本身做出的。
特征工程是需要自動化的另一個數(shù)據(jù)準備領域。特征工程是將原始數(shù)據(jù)轉換為屬性/預測變量的技術,可提高機器學習項目的準確性。特征工程自動化仍處于初級階段,也是一個積極的研究領域。麻省理工學院的數(shù)據(jù)科學家正在開發(fā)一種能夠從原始數(shù)據(jù)生成特征的“深度特征綜合”算法取得了令人難以置信的進步。
自動機器學習/統(tǒng)計
這是統(tǒng)計程序自動化的數(shù)據(jù)科學自動化領域。系統(tǒng)根據(jù)提供的數(shù)據(jù)集執(zhí)行最佳算法。它隱藏了用戶的復雜性和算法的數(shù)學復雜性,使其向群眾提供。用戶需要向自動統(tǒng)計學家提供數(shù)據(jù)。它了解數(shù)據(jù),創(chuàng)建不同的數(shù)學模型,并根據(jù)最能說明數(shù)據(jù)的模型返回結果。自動統(tǒng)計學家是一個復雜的科學,因為它需要系統(tǒng)學習輸入數(shù)據(jù)模式,找到最佳擬合值,并使用幾種統(tǒng)計和機器學習算法自我優(yōu)化其參數(shù)。這需要各種算法約束的推廣和巨大的計算能力。
通過利用基于云的服務器來管理高計算能力的需求,自動機器學習逐漸成熟。創(chuàng)建數(shù)據(jù)產品的組織逐漸包括諸如元學習的功能,基于數(shù)據(jù)集的元數(shù)據(jù)自動選擇合適的機器學習算法的過程。像H2O.ai這樣的組織通過引入幾個內置功能來推廣模型構建過程,并提供了許多模型調整選項,可以更好地控制算法。此外,他們已經將超參數(shù)調優(yōu)作為幾乎所有算法的特征,使數(shù)據(jù)科學家免于使用不同參數(shù)測試模型的繁瑣過程。超參數(shù)調整是使機器學習模型重新運行多次的自動化嘗試和錯誤的過程,以確定數(shù)據(jù)集上的模型的適當參數(shù)。
洞察產生自動化
數(shù)據(jù)科學項目的結果直到和除非業(yè)務用戶或沒有統(tǒng)計知識的觀眾理解它才有用。數(shù)據(jù)科學活動的奶油是講故事的部分,數(shù)據(jù)科學家以全面透明的方式向人們解釋結果。自動化此任務需要從統(tǒng)計學家友好的結果自動生成用戶友好的文本。自然語言生成(NLG)是當前的前沿框架,可以幫助將語言翻譯成自然語言。 Nlgserv和simplenlg是我們可以用于此任務的兩個NLG框架。此外,我們可以使用馬爾科夫鏈自動生成句子和制作故事。
數(shù)據(jù)科學自動化的創(chuàng)新已經開始,并將在未來幾年逐漸演變。我們目前正處于一個階段,我們已經開始處理個別數(shù)據(jù)科學模塊的自動化。從這里,我們需要轉移到更通用的數(shù)據(jù)科學平臺,所有模塊都自動化并集成在一起。這是一個變化的開始,就像房間大小的計算機被轉換為信用卡大小的計算機一樣。