什么是數(shù)據(jù)科學?將數(shù)據(jù)轉(zhuǎn)化為價值

責任編輯:cres

作者:Thor Olavsrud

2019-07-11 13:22:32

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

數(shù)據(jù)科學是一種將業(yè)務數(shù)據(jù)轉(zhuǎn)換為資產(chǎn)的方法,可幫助組織提高收入、降低成本、抓住商機、改善客戶體驗等。

數(shù)據(jù)科學是一種將業(yè)務數(shù)據(jù)轉(zhuǎn)換為資產(chǎn)的方法,可幫助組織提高收入、降低成本、抓住商機、改善客戶體驗等。
 
數(shù)據(jù)科學定義
 
數(shù)據(jù)科學是一種使用從統(tǒng)計分析到機器學習的方法從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中收集洞察力的方法。對于大多數(shù)組織而言,數(shù)據(jù)科學被用于將數(shù)據(jù)轉(zhuǎn)化為價值,其形式是改善收入,降低成本,提高業(yè)務靈活性,改善客戶體驗,開發(fā)新產(chǎn)品等。
 
RiskIQ公司首席數(shù)據(jù)科學家Adam Hunt說,“如果愿意,企業(yè)可以獲取的數(shù)據(jù)量是巨大的,但是如果沒有做任何事情,把它變成有趣的東西,它有什么用呢?數(shù)據(jù)科學是關于提供這些數(shù)據(jù)的目的。”
 
數(shù)據(jù)科學與分析
 
雖然數(shù)據(jù)分析是緊密相關的,但它是數(shù)據(jù)科學的一個組成部分,用于了解組織的數(shù)據(jù)是什么樣子的。數(shù)據(jù)科學利用分析的輸出來解決問題。
 
Hunt說,“數(shù)據(jù)科學正在得出推動數(shù)據(jù)向前發(fā)展的結(jié)論。如果不是采用數(shù)據(jù)解決問題,如果只是在做調(diào)查,那就是分析。如果真的要用結(jié)果來解釋某些事情,就要從分析到科學。數(shù)據(jù)科學與實際解決問題的關系比觀察、檢查、繪制數(shù)據(jù)更大。”
 
對于Looker公司首席數(shù)據(jù)科學家Hillary Green-Lerman來說,數(shù)據(jù)分析和數(shù)據(jù)科學之間的區(qū)別在于時間尺度。她表示,數(shù)據(jù)分析描述了當前的現(xiàn)實狀況。數(shù)據(jù)科學使用該數(shù)據(jù)來預測或了解未來。
 
Green-Lerman說,“許多人認為數(shù)據(jù)分析師只是初級數(shù)據(jù)科學家;有人希望在他們長大后成為數(shù)據(jù)科學家。有時這是真的,但實際上我發(fā)現(xiàn)一個非常優(yōu)秀的分析師擁有與數(shù)據(jù)科學家不同的技能。”
 
數(shù)據(jù)科學與大數(shù)據(jù)
 
數(shù)據(jù)科學和大數(shù)據(jù)通常是一致的,但數(shù)據(jù)科學可以用來從各種規(guī)模的數(shù)據(jù)中提取價值,無論是結(jié)構(gòu)化的、非結(jié)構(gòu)化的還是半結(jié)構(gòu)化的。當然,在許多情況下,大數(shù)據(jù)對數(shù)據(jù)科學家很有用,因為企業(yè)擁有的數(shù)據(jù)越多,在給定模型中可以包含的參數(shù)就越多。
 
Hunt說,“有了大數(shù)據(jù),企業(yè)就不必受制于小數(shù)據(jù)的維數(shù)限制。大數(shù)據(jù)在某些方面確實有幫助,但更多并不總是更好。如果把股票市場放在合適的位置,它就不會起作用。”
 
數(shù)據(jù)科學的商業(yè)價值
 
數(shù)據(jù)科學的商業(yè)價值取決于組織需求。數(shù)據(jù)科學可以幫助組織構(gòu)建工具來預測硬件故障,允許組織執(zhí)行維護,并防止意外停機。它可以幫助預測超市貨架上的內(nèi)容,或者根據(jù)產(chǎn)品的屬性預測產(chǎn)品的流行程度。
 
MapR科技公司首席應用架構(gòu)師Ted Dunning說,“數(shù)據(jù)科學團隊可以擁有的最大價值在于他們與業(yè)務團隊融為一體。幾乎按照定義,尋求新奇的人員,真正創(chuàng)新的人員,將會發(fā)現(xiàn)價值或泄漏的價值,而不是人們所預期的。通常他們會讓業(yè)務人員帶來驚喜。價值并不是人們最初認為的那樣。”
 
數(shù)據(jù)科學團隊
 
數(shù)據(jù)科學通常是一門團隊科學。數(shù)據(jù)科學家是大多數(shù)數(shù)據(jù)科學團隊的前瞻性核心,但從數(shù)據(jù)轉(zhuǎn)向分析,然后將分析轉(zhuǎn)化為生產(chǎn)價值需要一系列技能和角色。例如,數(shù)據(jù)分析師應該在將數(shù)據(jù)呈現(xiàn)給團隊,并在維護數(shù)據(jù)模型之前對其進行調(diào)查。數(shù)據(jù)工程師必須構(gòu)建數(shù)據(jù)管道以豐富數(shù)據(jù)集,并使數(shù)據(jù)可供公司其他人使用。
 
eBates公司分析副總裁Mark Stange-Tregear警告不要尋求數(shù)據(jù)科學“獨角獸”,也就是將非線性思維與高級數(shù)學和統(tǒng)計知識以及編碼能力相結(jié)合的人員。
 
Stange-Tregear解釋說,“我不認為數(shù)據(jù)工程是關鍵的數(shù)據(jù)科學家特征,我希望有人真正添加其他內(nèi)容。如果我可以讓某人建立模型,能夠評估統(tǒng)計數(shù)據(jù),并將該模型的好處傳達給業(yè)務部門,那么我就可以雇傭足夠成熟的數(shù)據(jù)工程師來采用該模型并實現(xiàn)它。”
 
數(shù)據(jù)科學的嵌入式方法
 
一些組織選擇將數(shù)據(jù)科學家與其他功能混合在一起。例如,Mapr公司的Dunning建議遵循數(shù)據(jù)操作方法,將數(shù)據(jù)科學家嵌入到具有業(yè)務線職責的DevOps團隊中。這些數(shù)據(jù)運營團隊往往是跨職能的和技能的,如運營、軟件工程、架構(gòu)和產(chǎn)品管理,并且可以從頭到尾協(xié)調(diào)數(shù)據(jù)、工具、代碼和環(huán)境。數(shù)據(jù)運營團隊傾向于將分析管道視為類似于生產(chǎn)線。
 
Dunning說,“孤立的數(shù)據(jù)科學團隊可能希望部署最復雜的模型,嵌入式數(shù)據(jù)科學家將尋找可維護的廉價勝利。他們對于選擇的解決方案是務實的。”
 
數(shù)據(jù)科學目標和可交付成果
 
數(shù)據(jù)科學的目標是構(gòu)建從數(shù)據(jù)中提取以業(yè)務為中心的見解的方法。這需要理解價值和信息在企業(yè)中是如何流動的,并能夠利用這種理解來識別業(yè)務機會。雖然這可能涉及一次性項目,但更典型的是,數(shù)據(jù)科學團隊尋求識別關鍵數(shù)據(jù)資產(chǎn),這些資產(chǎn)可以轉(zhuǎn)化為數(shù)據(jù)管道,為可維護工具和解決方案提供支持。例如,銀行使用的信用卡欺詐監(jiān)控解決方案,或用于優(yōu)化風電場中風力發(fā)電機布置的工具。
 
逐漸地,傳達團隊所做工作的演示文稿也是重要的可交付成果。Riskq公司的Hunt說,“確保他們將結(jié)果傳達給公司的其他人是非常重要的,當數(shù)據(jù)科學團隊長時間陷入困境時,它開始陷入困境。產(chǎn)品經(jīng)理認為工作是理所當然的,除非我們一直在談論和關注它。”
 
數(shù)據(jù)科學過程和方法
 
生產(chǎn)工程團隊在Sprint周期中工作,并且有計劃的時間表。Hunt表示,數(shù)據(jù)科學團隊通常很難做到這一點,因為可以提前花很多時間來確定一個項目是否可行。
 
Hunt說,“很多時候,第一周甚至第一個月都是研究、收集、清理數(shù)據(jù)。我們能回答這個問題嗎?我們能有效地做到嗎?我們花費了大量的時間進行設計和調(diào)查,遠遠超過了標準工程團隊的表現(xiàn)。”
 
對于Hunt來說,數(shù)據(jù)科學應該遵循科學方法,盡管他指出并非總是如此,甚至不可行。
 
Hunt說,“企業(yè)試圖從數(shù)據(jù)中提取一些洞察力。為了反復和自信地做到這一點,必須使用科學方法準確地證明其假設。但我不認為許多數(shù)據(jù)科學家真正使用任何科學。”
 
Hunt說,真正的科學需要時間。企業(yè)花費時間確認其假設,然后花費很多時間試圖反駁自己。
 
Hunt說,“通過數(shù)據(jù)科學,企業(yè)需要深入研究數(shù)據(jù)來驗證這些假設。我們試圖回答的很多問題都是短暫的。例如,在安全方面試圖找到解決威脅的辦法。”
 
他表示,因此,數(shù)據(jù)科學通常意味著采用“足夠好”的答案,而不是最佳答案。然而,危險是結(jié)果可能成為確認偏見或過度擬合的犧牲品。
 
他說,“如果這不是真正的科學,也就是說企業(yè)用科學的方法來證實一個假設,那么所做的就是向一些算法采用數(shù)據(jù)來證實自己的假設。”
 
數(shù)據(jù)科學工具
 
數(shù)據(jù)科學團隊使用各種工具,包括SQL、Python、R、Java以及Hive、oozie和TensorFlow等開源項目。這些工具用于各種與數(shù)據(jù)相關的任務,從提取和清理數(shù)據(jù)到通過統(tǒng)計方法或機器學習對數(shù)據(jù)進行算法分析。
 
通過統(tǒng)計方法或機器學習進行算法分析。
 
“企業(yè)需要良好的可視化工具。在這一點上,編程工具Python是最受歡迎的。企業(yè)需要能夠構(gòu)建有趣模型的工具。”MapR公司Dunning說。
 
Dunning說,當MapR公司調(diào)查其客戶數(shù)據(jù)團隊時,團隊使用的最少數(shù)量的建模工具是5個,而且甚至沒有進入可視化工具。
 
“事情變得越來越多,因為人們更加懷疑。這種其他建模技術會產(chǎn)生更好的模型嗎?”Dunning說。
 
數(shù)據(jù)科學家的薪酬
 
根據(jù)PayScale公司的數(shù)據(jù),以下是一些與數(shù)據(jù)科學相關的最受歡迎的職位和每個職位的平均薪酬:
 
•分析經(jīng)理:67,000美元至126,000美元
 
•助理數(shù)據(jù)科學家:58,000美元至101,000美元
 
•商業(yè)智能分析師:49,000美元至95,000美元
 
•數(shù)據(jù)分析師:42,000美元至83,000美元
 
•數(shù)據(jù)架構(gòu)師:77,000美元至153,000美元
 
•數(shù)據(jù)工程師:64,000美元至132,000美元
 
•數(shù)據(jù)科學家:65,000美元至134,000美元
 
•IT數(shù)據(jù)科學家:61,000美元至135,000美元
 
•首席數(shù)據(jù)科學家:95,000美元至172,000美元
 
•研究分析師:4萬至7萬美元
 
•研究科學家:48,000美元至118,000美元
 
•高級數(shù)據(jù)科學家:93,000美元至160,000美元
 
•統(tǒng)計學家:50,000美元至108,000美元
 
數(shù)據(jù)科學技能
 
雖然數(shù)據(jù)科學學位課程的數(shù)量正在迅速增加,但它們并不一定是組織在尋找數(shù)據(jù)科學家時所尋求的。eBates公司Stange-Tregear表示,他尋找具有統(tǒng)計背景的候選人,因此他們知道是否在看實際結(jié)果,將結(jié)果置于場景中的領域知識;以及使他們能夠向業(yè)務用戶傳達結(jié)果的溝通技巧。
 
“如果我有一位可以完成所有這些工作的數(shù)據(jù)科學家,那么我會擔心通過數(shù)據(jù)工程團隊實現(xiàn)這一點。”他說。
 
RiskIQ公司的Hunt表示,對擁有博士學位的應聘者很感興趣。Hunt說,“我偏向招聘于擁有博士學位的人,但我不會放棄那些具有豐富經(jīng)驗的人才。博士能夠?qū)σ粋€主題進行非常深入的研究,并且能夠?qū)⑦@些信息傳播給其他人。但是,擁有扎實的背景或個人項目是非常有趣的。”
 
Hunt說,他特別尋找物理、數(shù)學、計算機科學、經(jīng)濟學甚至社會科學的博士學位的人才。他不會對擁有數(shù)據(jù)科學或分析學位的應聘者另眼相看,但他確實對招聘這些人有所保留。他說,“我的個人經(jīng)歷是,我發(fā)現(xiàn)它們非常有用,但他們過于關注模型的操作,而不是思維方式。”
 
MapR公司的Dunning更關心申請人的個人能力,而不是展示新事物的能力。他說,“我在招聘數(shù)據(jù)科學家時首先想到的內(nèi)容是:受訪者是否能教會我一些東西?我不想找到指導我怎么做的人,我非常想找到那些可以做我不能做的事情的人才,或者可以教會團隊的人才。”
 
Dunning指出,一些優(yōu)秀的數(shù)據(jù)科學家或數(shù)據(jù)科學領域的領導者都具有非傳統(tǒng)背景,并指出,他與之合作過的最好的人員包括曾經(jīng)做了6年園丁的人,具有美術背景的人,有的甚至擁有法國文學學位,還有一位沒有接受計算機培訓的新聞系學生。
 
Dunning說:“想用數(shù)據(jù)感知來測試人們,而不是用公式。希望有能力看到事物并理解它們。”
 
數(shù)據(jù)科學培訓
 
鑒于目前缺乏數(shù)據(jù)科學人才,許多組織正在制定計劃,以培養(yǎng)內(nèi)部數(shù)據(jù)科學人才。而培訓是另一條快速增長的途徑,培訓工作人員承擔數(shù)據(jù)科學家的角色。
 
數(shù)據(jù)科學學位
 
根據(jù)美國新聞和世界報道,這些是數(shù)據(jù)科學領域的頂級研究生學位課程:
 
•統(tǒng)計學理學碩士:斯坦福大學的數(shù)據(jù)科學
 
•信息與數(shù)據(jù)科學碩士:伯克利信息學院
 
•數(shù)據(jù)科學理學碩士:哈佛大學約翰保爾森工程與應用科學學院
 
•分析科學碩士:芝加哥大學格雷厄姆學院
 
•計算數(shù)據(jù)科學碩士:卡內(nèi)基梅隆大學
 
•數(shù)據(jù)科學理學碩士:華盛頓大學
 
•跨學科數(shù)據(jù)科學碩士:杜克大學
 
•應用數(shù)據(jù)科學碩士:密歇根大學信息學院
 
數(shù)據(jù)科學認證
 
組織需要在數(shù)據(jù)分析技術方面有專長的數(shù)據(jù)科學家和分析師。他們還需要大數(shù)據(jù)架構(gòu)師將需求轉(zhuǎn)化為系統(tǒng),需要數(shù)據(jù)工程師構(gòu)建和維護數(shù)據(jù)管道,需要了解Hadoop集群和其他技術的開發(fā)人員,還需要系統(tǒng)管理員和管理人員將一切聯(lián)系在一起。認證是候選人展示他們擁有正確技能的一種方式。
 
一些頂級大數(shù)據(jù)和數(shù)據(jù)分析認證包括:
 
•數(shù)據(jù)科學專業(yè)成就認證
 
•認證分析專業(yè)人員
 
•Cloudera認證助理(CCA)數(shù)據(jù)分析師
 
•EMC經(jīng)驗證的專業(yè)數(shù)據(jù)科學家協(xié)會(EMCDSA)
 
•MapR認證數(shù)據(jù)分析師
 
•Microsoft認證解決方案專家(MCSE):數(shù)據(jù)管理和分析
 
•使用SAS 9的SAS認證數(shù)據(jù)科學家

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號