對數(shù)據(jù)科學家的需求仍然很高,幾乎每個行業(yè)的公司都希望從其迅速增長的信息資源中獲得最大價值。
“隨著企業(yè)開始充分利用其內(nèi)部數(shù)據(jù)資產(chǎn)并審查整合的數(shù)百個第三方數(shù)據(jù)源,數(shù)據(jù)科學家的作用將繼續(xù)擴大,”咨詢公司Protiviti董事格雷格·博伊德(Greg Boyd)說。
“過去,負責數(shù)據(jù)的團隊被委托到IT組織的后臺工作,執(zhí)行關鍵數(shù)據(jù)庫任務,以保持各個企業(yè)系統(tǒng)得到數(shù)據(jù)‘燃料’的支持,從而允許公司高管報告運營情況并提交財務業(yè)績,”博伊德說。
這個角色很重要,但該業(yè)務的新星是那些精明的數(shù)據(jù)科學家,他們不僅能夠利用復雜的統(tǒng)計學和可視化技術處理大量數(shù)據(jù),而且極具智慧,他們可以從這些數(shù)據(jù)中獲取前瞻性的見解,博伊德說。這些見解有助于預測潛在的結(jié)果并減輕對企業(yè)的潛在威脅。
那么,成為數(shù)據(jù)科學專家需要什么素質(zhì)呢?據(jù)IT主管、行業(yè)分析師、數(shù)據(jù)科學家和其他人士稱,以下特征和技能非常重要。
批判性思維
數(shù)據(jù)科學家需要是一名具有批判性的思考者,以便在提出意見或作出判斷之前,能夠?qū)μ囟ㄖ黝}或問題進行客觀的事實分析。
“他們需要了解業(yè)務問題或做出決策,并能夠?qū)鉀Q問題的關鍵環(huán)節(jié)進行‘建模’或‘抽象’,而不是考慮那些無關緊要的問題,”咨詢公司普華永道負責數(shù)據(jù)和分析的全球人工智能和創(chuàng)新主管安納德·拉奧(Anand Rao)說。“這項技能比其他技能都重要,決定著其是否是一名成功的數(shù)據(jù)科學家。”
數(shù)據(jù)科學家需要有經(jīng)驗,但也要有能力暫時放棄一種觀念,Zeta Global公司(該公司提供基于云的營銷平臺)的首席信息官Jeffry Nimeroff補充說。
“這一特征使你在任何領域工作時都能知道即將發(fā)生什么,但也知道經(jīng)驗和直覺是不完美的,”Nimeroff說。“如果我們過于自滿,經(jīng)驗雖會帶來好處,但并非沒有風險。這就是要懷疑某一信念的重要性。”
Nimeroff說,這不是用新手的眼光來看待事物,而是退后一步,從多個角度評估問題或情況。
編寫代碼
頂尖的數(shù)據(jù)科學家知道如何編寫代碼,并且能夠輕松處理各種編程工作。
拉奧說:“數(shù)據(jù)科學所選擇的語言正向Python發(fā)展,而R語言也有大量的追隨者。”另外,還有其他一些正在使用的語言,如Scala、Clojure、Java和Octave。
“要成為非常成功的數(shù)據(jù)科學家,編程技能需要包含兩個方面:計算方面--處理大量數(shù)據(jù),處理實時數(shù)據(jù),云計算,非結(jié)構(gòu)化數(shù)據(jù)以及統(tǒng)計特性;和使用統(tǒng)計模型方面,如回歸、優(yōu)化、聚類、決策樹、隨機森林等,”拉奧說。
安全軟件公司邁克菲(McAfee)的首席數(shù)據(jù)科學家Celeste Fralick說,從20世紀90年代末開始興起大數(shù)據(jù),它的影響要求越來越多的數(shù)據(jù)科學家要能理解并能使用諸如Python、C ++或Java等語言進行編碼。
如果一個數(shù)據(jù)科學家不懂如何編寫代碼,那么這就需要懂得編寫代碼的人來幫助它。“將數(shù)據(jù)科學家與開發(fā)人員結(jié)合起來,這將是非常有成果的,”Fralick說。
數(shù)學能力
對于不喜歡或不擅長數(shù)學的人來說,數(shù)據(jù)科學可能不是一個好的職業(yè)選擇。
“在我們與全球各個組織的合作中,我們與希望為其開發(fā)復雜財務或運營模式的客戶進行接洽,”博伊德說。“為了使這些模型具有統(tǒng)計相關性,就需要涉及大量的數(shù)據(jù)。數(shù)據(jù)科學家的角色就是利用他們在數(shù)學方面的深厚專業(yè)知識,開發(fā)出可用于制定或轉(zhuǎn)換關鍵業(yè)務戰(zhàn)略的統(tǒng)計模型。”
數(shù)據(jù)科學家是一位擅長數(shù)學和統(tǒng)計學的奇才,同時具備與業(yè)務主管密切協(xié)作的能力,以便以一種可以讓人放心的方式來傳遞在復雜方程的“黑盒子”中實際發(fā)生的情況,從而企業(yè)可以相信其結(jié)果和建議,博伊德說。
機器學習、深度學習和人工智能
Fralick表示,由于計算能力、連接性和收集的大量數(shù)據(jù),各個行業(yè)在這些領域正在飛速發(fā)展。“數(shù)據(jù)科學家需要在科研工作中保持領先,并了解何時應用何種技術,”她說。“很多時候,當數(shù)據(jù)科學家正在解決的實際問題遠不那么復雜時,數(shù)據(jù)科學家會用一些‘吸引人’的新東西。”
數(shù)據(jù)科學家需要對即將解決的問題有深入的了解,并且數(shù)據(jù)本身會說明需要什么,F(xiàn)ralick說。“意識到生態(tài)系統(tǒng)的計算成本、可解釋性、延遲、帶寬和其他系統(tǒng)邊界條件以及客戶的成熟度,這本身就可以幫助數(shù)據(jù)科學家理解應使用哪種技術。”她說道。只要他們了解這項技術,情況確實如此。
統(tǒng)計技能也很有價值。Fralick說,大多數(shù)雇主都沒有考慮這些技能,因為現(xiàn)在的自動化工具和開源軟件已經(jīng)很容易獲得。“但是,了解統(tǒng)計學是理解這些工具和軟件所做假設的關鍵能力,”她說。
數(shù)據(jù)存儲提供商美光科技公司(Micron Technology)的首席信息官特雷弗·舒爾茨(Trevor Schulze)說,僅僅理解機器學習算法的功能接口是不夠的。“為了選擇合適的算法,一位成功的數(shù)據(jù)科學家需要了解方法內(nèi)的統(tǒng)計數(shù)據(jù)和適當?shù)臄?shù)據(jù)準備技術,以最大限度地提高任何模型的整體性能,”他說。
舒爾茨說,計算機科學技能也很重要。因為數(shù)據(jù)科學主要是在鍵盤上完成的,所以具有很強的軟件工程基礎是很有幫助的。
溝通能力
溝通技巧的重要性值得反復強調(diào)。在今天的技術中幾乎沒有什么是在真空中進行的,各個系統(tǒng)、應用程序、數(shù)據(jù)和人員之間總是存在一些整合。數(shù)據(jù)科學也不例外,能夠使用數(shù)據(jù)與多個利益相關者進行交流是一個關鍵技能。
“擁有通過數(shù)據(jù)來‘講述故事’的能力,可將數(shù)學結(jié)果轉(zhuǎn)化為可操作的見解或干預,”拉奧說。“作為業(yè)務、技術和數(shù)據(jù)的交集,數(shù)據(jù)科學家需要善于向每個利益相關者講述故事。”
這包括向企業(yè)高管講述數(shù)據(jù)的商業(yè)利益;講述關于技術和計算資源;講述關于數(shù)據(jù)質(zhì)量、隱私和保密性方面的挑戰(zhàn);以及講述該組織關注的其他領域。
Nimeroff說,作為一名善于溝通的人,需要能夠?qū)⒕哂刑魬?zhàn)性的技術信息提煉成完整、準確且易于表述的形式。“數(shù)據(jù)科學家必須記住,他們工作所帶來的結(jié)果可以并將用于支持企業(yè)做出定向型的行動,”他說。“因此,能夠確保聽者理解并欣賞向他們展示的所有內(nèi)容,包括問題、數(shù)據(jù)、成功標準和結(jié)果,這是至關重要的。”
舒爾茨說,一位優(yōu)秀的數(shù)據(jù)科學家必須具備商業(yè)頭腦和好奇心,才能充分地與業(yè)務利益相關者進行交談,以了解問題并確定哪些數(shù)據(jù)可能是相關的。
另外,數(shù)據(jù)科學家需要能夠向業(yè)務領導者解釋一些算法。舒爾茨說:“講述算法是如何實現(xiàn)預測功能,這是贏得領導者對作為其業(yè)務流程一部分的預測模型的信任的一項關鍵技能。”
數(shù)據(jù)架構(gòu)
數(shù)據(jù)科學家必須了解從開始到建模到業(yè)務決策過程,其中數(shù)據(jù)到底發(fā)生了什么。
“不了解架構(gòu)會對樣本規(guī)模的推論和假設產(chǎn)生嚴重影響,往往會導致錯誤的結(jié)果和決策,”Fralick說。
更糟的是,在架構(gòu)內(nèi)部可能會發(fā)生變化。Fralick表示,如果不了解架構(gòu)內(nèi)變化對模型的影響,那么數(shù)據(jù)科學家可能會陷入“重新建模的風暴中,或者突然發(fā)現(xiàn)模型不準確而不理解其原因”。
雖然Hadoop通過將代碼傳遞給數(shù)據(jù)而不是相反,來提供大數(shù)據(jù),但了解數(shù)據(jù)流或數(shù)據(jù)管道的復雜性對保證基于事實的決策制定至關重要,F(xiàn)ralick表示。
風險分析、過程改進和系統(tǒng)工程
一位優(yōu)秀的數(shù)據(jù)科學家需要了解分析業(yè)務風險,改進流程以及系統(tǒng)工程如何工作的概念。
“我了解的所有優(yōu)秀數(shù)據(jù)科學家都具備這些技能”,F(xiàn)ralick說。“這些技能協(xié)調(diào)合作,不僅從內(nèi)在集中于數(shù)據(jù)科學家本身,而且從外在面向客戶。”
從內(nèi)在來說,數(shù)據(jù)科學家應該記住其頭銜的另一部分,即科學家,并應遵循合理的科學理論,F(xiàn)ralick說。
在模型開發(fā)開始階段進行風險分析可以降低風險。“表面上看,這些都是數(shù)據(jù)科學家在了解客戶想要解決什么問題的所有技能,”她說。
Fralick表示,將精力花在研究流程改進,理解公司內(nèi)在風險以及可能影響數(shù)據(jù)或模型結(jié)果的其他系統(tǒng),這可以讓客戶對數(shù)據(jù)科學家的努力更加滿意。
解決問題和良好的商業(yè)直覺
Nimeroff說,一般來說,優(yōu)秀數(shù)據(jù)科學家所展現(xiàn)的特征與任何其他優(yōu)秀的問題解決者所具備的特征都是相同的。“他們從多個角度看待世界,他們在拿出工具工作之前,要清楚他們應該做什么,他們工作嚴謹而周全,并且能夠很好地解釋他們工作的結(jié)果,”Nimeroff說。
當評價如數(shù)據(jù)科學家等職位的技術專業(yè)人員時,Nimeroff會尋找這些特征。“這種方法的成功率極高,并且也確保了潛在的優(yōu)勢得以最大化發(fā)揮,因為批判性思維已經(jīng)變得最為重要。”
找到一位優(yōu)秀的數(shù)據(jù)科學家需要找到那些具有一些相互矛盾技能的人:有能力處理數(shù)據(jù)并創(chuàng)建實用的模型;對他們試圖解決的業(yè)務問題、數(shù)據(jù)的結(jié)構(gòu)和細微差別以及模型如何工作有著直觀理解,商業(yè)軟件供應商Paytronix Systems負責Paytronix Data Insights業(yè)務的主管李·邦尼士(Lee Barnes)說道。
邦尼士說,“其中第一項技能是最容易找到的,大多數(shù)擁有良好數(shù)學技能并且擁有數(shù)學、統(tǒng)計學、工程學或其他科學學科學位的人,都可能具備這樣的智力和技能。“第二項技能很難找到。令人驚訝的是,我們面試的很多人都能建立復雜的模型,但當詢問他們?yōu)槭裁此麄冋J為其模型是有效的或為什么他們選擇采用該方法時,他們無法給出一個合理的答案。”
這些人很可能能夠解釋一個模型的準確性,“但是,他們不理解其模型為什么以及如何工作,因此就很難對他們的模型有很大的信心,”邦尼士說。“那些對他們所做工作有更深入的了解和直覺的人,才是真正的數(shù)據(jù)科學專家,并且他們才可能在這個領域擁有成功的職業(yè)生涯。”
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權(quán)利。