如今,一切似乎都能實現(xiàn)自動化,從無人駕駛汽車到BLS在線更新,但自動化可能影響人們最具變革性的方法之一是通過大數(shù)據(jù)科學(xué)數(shù)字的自動化。
數(shù)據(jù)科學(xué)日益重要,許多組織正在努力通過自動化簡化流程。技術(shù)的發(fā)展既是一種詛咒又是一種祝福:與大數(shù)據(jù)和物聯(lián)網(wǎng)相結(jié)合,數(shù)據(jù)科學(xué)隨著新的數(shù)據(jù)集和條件而不斷變化,導(dǎo)致分析師每次定期維護(hù)和重新創(chuàng)建模型。這個過程可以是乏味和耗時的,但它可以很容易地被自動化替代。自動化系統(tǒng)具有解決問題的能力,無論輸入什么樣的數(shù)據(jù),都可以創(chuàng)建潛在問題的所有可能的解決方案,為工作人員節(jié)省寶貴的時間和精力。
然而,在大數(shù)據(jù)環(huán)境中自動化數(shù)據(jù)科學(xué)可能是一個復(fù)雜的挑戰(zhàn),特別是因為仍然有一些領(lǐng)域需要來自數(shù)據(jù)科學(xué)家或軟件開發(fā)人員的努力。專家建議將數(shù)據(jù)科學(xué)自動化作為一個兩個層次的過程,其中(1)將獨立的數(shù)據(jù)科學(xué)組件自動化,然后(2)將每個單獨的自動化零件組合在一起,以形成一個連貫的系統(tǒng)。
有四個主要領(lǐng)域可以單獨自動創(chuàng)建一個完全自動化的系統(tǒng):數(shù)據(jù)準(zhǔn)備,機器學(xué)習(xí),生成洞察和結(jié)果解釋。這些任務(wù)可以在三個主要領(lǐng)域創(chuàng)建自動化模型:
1.數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)科學(xué)的第一步是提取,清理和轉(zhuǎn)換數(shù)據(jù)的重復(fù)性操作。其任務(wù)包括輸入空值和為每個特定算法變換數(shù)據(jù)。許多自動化這個過程的組織對任務(wù)使用基于規(guī)則的邏輯,考慮到數(shù)據(jù)科學(xué)的目的,替換基于規(guī)則的系統(tǒng),這可能不是最佳的選擇。最好的自動化系統(tǒng)將是通過機器學(xué)習(xí)自動化的自動化數(shù)據(jù)預(yù)處理,這意味著人們給機器更多的權(quán)力來決定應(yīng)用于數(shù)據(jù)集的什么功能。
數(shù)據(jù)準(zhǔn)備還可以通過特征工程自動化,其將原始數(shù)據(jù)轉(zhuǎn)換為預(yù)測,從而提高機器學(xué)習(xí)系統(tǒng)的準(zhǔn)確性。特征工程仍處于算法開發(fā)的早期階段。隨著過程的鞏固,它可能在未來的數(shù)據(jù)科學(xué)中發(fā)揮重要作用。
2.機器學(xué)習(xí)
在工作人員的世界中,這個過程由統(tǒng)計學(xué)家觀察數(shù)據(jù)來確定要使用的最佳算法,然后將信息放入模型中。在自動化世界中,機器為數(shù)據(jù)選擇最佳算法,并簡化數(shù)學(xué)復(fù)雜性,使方程和結(jié)果易于理解。該過程涉及更高級的自動化,因為機器必須識別輸入模式和自優(yōu)化以設(shè)定方程的邊界。更先進(jìn)的自動化系統(tǒng)使用基于云計算的服務(wù)器和元學(xué)習(xí)等自動理解和計算大量數(shù)據(jù)。
3.生成洞察
數(shù)據(jù)科學(xué)的最終結(jié)果不是一組新的數(shù)據(jù),它是以適用于組織的方式解釋數(shù)據(jù)。程序員或統(tǒng)計學(xué)家可以理解數(shù)據(jù)的輸出及其如何相關(guān),但是直到數(shù)據(jù)可以被沒有統(tǒng)計知識的人理解為止,該過程才會完成。這意味著將這些數(shù)據(jù)變成一個全面和透明的故事。
自動化此步驟稍微有些復(fù)雜,因為它需要從原始數(shù)字結(jié)果自動創(chuàng)建用戶友好的文本。這種類型的自動化的領(lǐng)先框架是自然語言生成(NLG),其最好將機器語言轉(zhuǎn)換為自然的人類語言。
數(shù)據(jù)科學(xué)的自動化處于早期階段,并將隨著進(jìn)一步的技術(shù)的開發(fā)和應(yīng)用而不斷發(fā)展。在創(chuàng)建單個模塊后,下一步是創(chuàng)建更多通用平臺,可以自動集成數(shù)據(jù)科學(xué)系統(tǒng)的所有方面。這個過程可能很漫長,但結(jié)果可能在整個商業(yè)世界是強大的。