數(shù)據(jù)科學(xué)家的身價很高,以至于雇傭他們對于除了谷歌、Facebook、亞馬遜和蘋果以外的任何企業(yè)來說都是一個挑戰(zhàn)。而那些有幸從大型科技公司挖走他們或者能夠從學(xué)術(shù)界吸引到他們的CIO們將可以自豪地談?wù)撍麄儗⑴c他們的數(shù)據(jù)專家所產(chǎn)生的所有商業(yè)見解。
IBM預(yù)計,到2020年,對數(shù)據(jù)科學(xué)家的需求將激增28%——而這一數(shù)字可能還是保守的。為了解決人才短缺問題,公司正在構(gòu)建能夠為公司帶來巨大成功的軟件,以便有效地從普通的公司員工中創(chuàng)建“公民”數(shù)據(jù)科學(xué)家。
研究公司Gartner表示,公民數(shù)據(jù)科學(xué)包括允許用戶在統(tǒng)計和分析領(lǐng)域之外工作時從數(shù)據(jù)中提取預(yù)測性和規(guī)范性見解的能力和實踐。 Gartner分析師Carlie Idoine在一篇博客文章中表示,公民數(shù)據(jù)科學(xué)家可以是一些“超級用戶”,例如沒有計算機(jī)科學(xué)背景的商業(yè)分析師,他們可以執(zhí)行簡單或中等復(fù)雜的分析任務(wù),而這些任務(wù)以前需要更多的專業(yè)知識。她補(bǔ)充說, 這些超級用戶,如業(yè)務(wù)分析師,可以幫助緩解當(dāng)前的技能差距。
Forrester Research的分析師Brandon Purcle表示:“工具、技術(shù)、數(shù)據(jù)和模型可用性的不斷提高,使得人們能夠?qū)⒁娊鈧鞑ソo那些原本沒有能力自己去了解的人。”
數(shù)據(jù)科學(xué)將全部民主化
通過技術(shù)總是能找到一種能夠使信息獲取更加民主化的方法。其中有什么變化么?在大多數(shù)企業(yè)仍在實施的傳統(tǒng)模式中,業(yè)務(wù)分析師會在數(shù)月內(nèi)與IT和數(shù)據(jù)科學(xué)家共同努力,計劃用于產(chǎn)生預(yù)測性見解的模型,然后數(shù)據(jù)科學(xué)家將通常從頭開始構(gòu)建這個模型。
現(xiàn)在,由于IBM的SPSS和Alteryx等工具,許多沒有編碼經(jīng)驗或編碼經(jīng)驗很少的公民數(shù)據(jù)科學(xué)家只需要將數(shù)據(jù)模型拖放到某種軟件畫布上,就可以獲得洞察力。Purcell表示,這些工具使得“業(yè)務(wù)線分析師能夠比在Excel中更容易的操作數(shù)據(jù)”。
例如,通用汽車公司建立了Maxis,這是一個分析平臺,允許商業(yè)用戶進(jìn)行類似Google的查詢,并獲得銷售預(yù)測和供應(yīng)鏈績效等運(yùn)營指標(biāo)的窗口。專家們一致認(rèn)為,現(xiàn)在的通用汽車公司可能是一個特例,但在短期內(nèi)就會有很多類似的公司出現(xiàn)。
數(shù)據(jù)科學(xué)是石油巨頭殼牌公司的一個重要關(guān)注點,在那里,員工們通過不停地瀏覽公司千萬億字節(jié)的數(shù)據(jù),以獲得運(yùn)營和業(yè)務(wù)洞察力。例如,殼牌公司使用公司的自助服務(wù)軟件Alteryx來幫助運(yùn)行預(yù)測模型,預(yù)測成千上萬的石油鉆機(jī)部件何時會出現(xiàn)故障。
Jeavens說:“數(shù)據(jù)科學(xué)工具正在使數(shù)據(jù)科學(xué)的低端民主化,這讓越來越多的人可以做到這一點了。”但在另一方面,殼牌也正在使用一些“強(qiáng)大的引擎”,如Google TensorFlow和深度學(xué)習(xí)庫MXNet,以及Python和R編程語言。 “總會有一個跨越公民數(shù)據(jù)科學(xué)家和專業(yè)數(shù)據(jù)科學(xué)家的頻譜,我們必須同時支持這兩者。”
公民數(shù)據(jù)科學(xué)家確實彌合了商業(yè)用戶進(jìn)行的自助分析和數(shù)據(jù)科學(xué)家進(jìn)行的高級分析之間的差距。Forrester的Purcell表示,專業(yè)數(shù)據(jù)科學(xué)家將更多的在整個企業(yè)中構(gòu)建和擴(kuò)展數(shù)據(jù)模型和算法。
TD銀行集團(tuán)企業(yè)信息高級副總裁Joe DosSantos說,現(xiàn)在人們已經(jīng)普遍認(rèn)識到數(shù)據(jù)是新的石油,許多企業(yè)已經(jīng)“被復(fù)雜分析的魅力所吸引”?,F(xiàn)實情況是,數(shù)據(jù)科學(xué)將不再是關(guān)于巫師和神話中的獨角獸。
DosSantos表示,TD銀行使用了一系列基本的以及復(fù)雜的分析工具來更好地協(xié)調(diào)歷史和當(dāng)前的客戶數(shù)據(jù),并進(jìn)行欺詐分析。例如,該銀行使用了AtScale的軟件來幫助商業(yè)用戶查詢來自該銀行Hadoop數(shù)據(jù)湖的實時數(shù)據(jù),并快速獲得結(jié)果。而TD銀行分析師也會在Tableau自助可視化軟件中查看數(shù)據(jù)。
數(shù)據(jù)科學(xué)家:仍然不可或缺
其他的軟件供應(yīng)商也正在加速數(shù)據(jù)民主化的趨勢,通過采用機(jī)器學(xué)習(xí)(ML)和人工智能(AI)功能來構(gòu)建自動化模型。
例如,Salesforce.com提供了Einstein預(yù)測生成器,它允許商業(yè)分析師創(chuàng)建自定義的AI模型,在任何自定義Salesforce字段或?qū)ο笊咸砑幼兞浚灶A(yù)測一些結(jié)果,如客戶流失的可能性或客戶的生命周期價值。Adobe的Sensei是另一個ML軟件工具,它可以幫助營銷人員在幾分鐘內(nèi)啟動營銷活動,減少任務(wù)的時間。
Gartner表示,到2020年,超過40%的數(shù)據(jù)科學(xué)任務(wù)可能會實現(xiàn)自動化。“這種[自動化的ML方法]是下一代的數(shù)據(jù)科學(xué),”Purcell說。
當(dāng)然,并不是所有的大數(shù)據(jù)任務(wù)都能被公民數(shù)據(jù)科學(xué)家很容易的解決。德勤咨詢公司認(rèn)知和分析業(yè)務(wù)的常務(wù)董事Bill Roberts說,公司仍然需要統(tǒng)計學(xué)家、數(shù)據(jù)科學(xué)家、精算師和其他精通高級數(shù)學(xué)技術(shù)的專家。這些專家可以填補(bǔ)空缺和缺失字段的數(shù)據(jù),這些任務(wù)是公民數(shù)據(jù)科學(xué)家無法勝任的。
另外,如果出了問題,又無法通過數(shù)學(xué)進(jìn)行驗證時該怎么辦?也許算法本身也存在問題。 Roberts說:“當(dāng)遇到困難或問題時,你需要有受過某種培訓(xùn)或具有高級學(xué)位的人來幫助你解決這個問題。”