在2017年數(shù)據(jù)社區(qū)將會有大量的機會出現(xiàn),并伴隨一些危機性的挑戰(zhàn),下面是對上述問題的縱觀。
1.更多的數(shù)據(jù)科學(xué)家將開始使用深度學(xué)習(xí)
縱觀2016年深度學(xué)習(xí)領(lǐng)域所取得的主要成就,與那些讓深度學(xué)習(xí)變得更加簡單的工具發(fā)布,以及直接讓現(xiàn)有大數(shù)據(jù)平臺和架構(gòu)整合在一起的工具。顯而易見,數(shù)據(jù)科學(xué)家在2017年已不得不選擇深度學(xué)習(xí),因為通過它可實現(xiàn)的價值已經(jīng)愈來愈多??纯磿r間序列和事件數(shù)據(jù)(包括異常檢測),物聯(lián)網(wǎng)以及傳感器相關(guān)的數(shù)據(jù)分析,語音識別,以及文本挖掘推薦,深度學(xué)習(xí)的用例還有很多。
2.對數(shù)據(jù)工程相關(guān)技能的需求將會持續(xù)上升
《哈佛商業(yè)評論》雜志在2012年的時候?qū)?shù)據(jù)科學(xué)家稱為“21世紀最性感的職業(yè)”,但愿在2017年里對數(shù)據(jù)科學(xué)家的需求會延續(xù)下去,但是人才需求將會主要集中在數(shù)據(jù)工程師(遠多于數(shù)據(jù)科學(xué)家)。許多公司在尋找會編程的數(shù)據(jù)科學(xué)家,從而將會需要更多的可以接觸生產(chǎn)系統(tǒng)的數(shù)據(jù)科學(xué)家。這些是獨一無二的技能,他們也同樣會獲得除了薪水之外的快樂。
3.越來越多的公司將會在云端使用托管服務(wù)
一項最新的O’Reilly調(diào)查顯示,一個組織在云端感受完大數(shù)據(jù)之后,往往會催生出更多類似的大數(shù)據(jù)服務(wù)。
現(xiàn)如今很多公司都接觸了能夠提供存儲、數(shù)據(jù)處理、可視化、分析以及人工智能的托管服務(wù)。雖然業(yè)內(nèi)已存在很多可以解決這些問題的開源組件,但專有的托管服務(wù)逐漸被證明成為了大眾的選擇。因為這些工具將會被服務(wù)提供商所管理,機構(gòu)內(nèi)部的數(shù)據(jù)專業(yè)人士將能夠關(guān)注手頭的問題而不用考慮需要使用什么樣的工具——不過他們得學(xué)習(xí)如何設(shè)計、搭建以及管理在云端運行的應(yīng)用。
4.并不是所有的東西都會遷移到公共云
遺留系統(tǒng)、敏感的數(shù)據(jù)、安全、合規(guī)以及隱私問題將會需要一個混合的架構(gòu)。這里同樣會存在使用定制甚至是私有云的應(yīng)用,就像為工業(yè)物聯(lián)網(wǎng)設(shè)計的Predix或者AWS的CIA。許多公司將會需要能夠應(yīng)對復(fù)雜情況的解決方案架構(gòu)。
5.數(shù)據(jù)的民主化:任務(wù)因工作更簡單而簡化
提供自助分析的新工具使得許多數(shù)據(jù)分析的任務(wù)變的更加簡單。有一些甚至都不需要編程,同時另外一些工具使得在一個工作流下融合代碼、圖像和文本變得更加簡單。這些并不是統(tǒng)計學(xué)家或者數(shù)據(jù)極客的授權(quán)用戶們做著常規(guī)的數(shù)據(jù)分析,讓數(shù)據(jù)專家們有了更多的時間去處理復(fù)雜的項目或者去優(yōu)化端到端的傳輸途徑和應(yīng)用。
在這幾年里這一切都在發(fā)生,我們發(fā)現(xiàn)許多使得先進的分析更加民主化的工具正在興起(譬如微軟的Azure),能夠支持對大規(guī)模的流數(shù)據(jù)資源進行采集,還使得先進的機器學(xué)習(xí)能夠得到發(fā)展和應(yīng)用(像谷歌的Cloud Platform和亞馬遜的Machine Learning)。
6.儲存和計算的分離將會加速
加州大學(xué)伯克利分校的AMPlab項目在去年十一月已經(jīng)完成,但是在Apache Spark和Alluxio背后的團隊并不是唯一一個強調(diào)存儲和計算相分離。正如上面所說的那樣,存儲在云端的流行項目甚至一些最新的深度學(xué)習(xí)架構(gòu)使得這個典范更加突出。
7.筆記本和工作流工具會的得到持續(xù)的發(fā)展
Jupyter的筆記本因為具有能夠提供可以解決包括數(shù)據(jù)清洗、轉(zhuǎn)換、數(shù)字化的仿真、統(tǒng)計學(xué)模型和深度學(xué)習(xí)在內(nèi)許多問題的多元化架構(gòu)而被數(shù)據(jù)科學(xué)家們使用和重組。(譬如O’Reilly使用Jupyter筆記本作為Oriole Interactive Tutorials的基礎(chǔ))。它對數(shù)據(jù)小組來說十分有用,因為在notebook里能夠創(chuàng)造和分享包含動態(tài)代碼、公式、可視化和說明性文本在內(nèi)的文件。通過將Jupyter和Spark連接,你將能夠通過簡單接口使用Spark編寫Python代碼而不是使用Linus的命令輸入或是Spark shell。
數(shù)據(jù)專家們將會一直使用多樣化的工具。Beaker筆記本能夠支持很多編程語言,現(xiàn)在還有將Spark社區(qū)作為目標的復(fù)合筆記本。(Spark Notebook、Apache Zeppelin及Databricks Cloud)。但并不是所有的數(shù)據(jù)專家都使用筆記本:因為筆記本不能適應(yīng)對復(fù)雜數(shù)據(jù)渠道的管理,工作流工具更加適合這點。數(shù)據(jù)工程師門喜歡軟件開發(fā)者使用的工具。隨著深度學(xué)習(xí)和其他新技術(shù)進入數(shù)據(jù)科學(xué)和大數(shù)據(jù)社區(qū),我們估計現(xiàn)存的工具將會得到進一步的發(fā)展和優(yōu)化。
8.數(shù)據(jù)社區(qū)將會進一步找出方法來解決像隱私和倫理道德一樣的問題。
由于機器學(xué)習(xí)的普及化、數(shù)據(jù)資源的多樣化以及算法的復(fù)雜化,使得透明度變得越來越難實現(xiàn)。在數(shù)據(jù)應(yīng)用中實現(xiàn)公平變得比以往更加具有挑戰(zhàn)性??v觀2017年我們希望能夠看到涉及以下幾個方面的國家政策的討論:對偏見測試的最佳實踐以及偏向的理論導(dǎo)致偏向結(jié)果的意識在不斷提升。
關(guān)于作者:Ben Lorica 是O’Reilly 媒體公司的首席數(shù)據(jù)科學(xué)家。