什么是數(shù)據(jù)科學?
數(shù)據(jù)科學是這樣一種方法——用統(tǒng)計分析和機器學習等一系列方法從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中獲得洞察。對于大多數(shù)組織而言,數(shù)據(jù)科學用來將數(shù)據(jù)轉(zhuǎn)化為價值,這些價值可能以改善收入、降低成本、業(yè)務敏捷性、改善客戶體驗、開發(fā)新產(chǎn)品等形式體現(xiàn)出來。
RiskIQ的首席數(shù)據(jù)科學家Adam Hunt問道:“如果你想的話,你可以獲取大量的數(shù)據(jù),但是如果你不打算用它做任何事情,把它變成有趣的東西,它又有何用?正是數(shù)據(jù)科學使這些數(shù)據(jù)變得有意義的”。
數(shù)據(jù)科學與分析
雖然這兩者密切相關,但人們往往將數(shù)據(jù)分析視為數(shù)據(jù)科學的一個組成部分,用于了解組織的數(shù)據(jù)。數(shù)據(jù)科學利用分析的輸出結(jié)果來解決問題。
Hunt說:“數(shù)據(jù)科學得出了能推動你的數(shù)據(jù)發(fā)展的結(jié)論。分析就是要弄清楚數(shù)據(jù)長什么樣子,但只有數(shù)據(jù)本身才會產(chǎn)生結(jié)果。如果你沒有用數(shù)據(jù)解決問題,如果你只是在做研究,那么這充其量是在做分析。如果你確實要利用結(jié)果來解釋一些事情,你將從分析轉(zhuǎn)向科學。與其說數(shù)據(jù)科學與數(shù)據(jù)的查看,檢查和繪制有關,不如說它與實際問題的解決有關。”
數(shù)據(jù)科學與大數(shù)據(jù)
人們往往認為數(shù)據(jù)科學和大數(shù)據(jù)休戚相關,但數(shù)據(jù)科學家不僅僅使用大數(shù)據(jù)。數(shù)據(jù)科學可用從各種規(guī)模的數(shù)據(jù)中提取價值,無論是結(jié)構(gòu)化的、非結(jié)構(gòu)化的還是半結(jié)構(gòu)化的數(shù)據(jù)。
很多情況下,大數(shù)據(jù)對數(shù)據(jù)科學團隊很有用,因為你擁有的數(shù)據(jù)越多,你在特定模型中可以包含的參數(shù)就越多。
Hunt說:“有了大數(shù)據(jù),你就不見得會受到小數(shù)據(jù)的維度約束。大數(shù)據(jù)確實在某些方面有所幫助,但多多不一定益善。如果你強行將股市行情顯示在一欄里,這不管用。但如果你只看一兩天的行情,你可以這么做。”
數(shù)據(jù)科學的商業(yè)價值
數(shù)據(jù)科學的商業(yè)價值取決于它所服務的組織。數(shù)據(jù)科學有助于組織創(chuàng)建能預測硬件故障的工具,它可以讓組織實施維護并防止意外停機。它可用來預測超市貨架上要擺放什么物品,或根據(jù)屬性預測某個產(chǎn)品的受歡迎程度。
MapR Technologies的首席應用架構(gòu)師Ted Dunning說:“與業(yè)務團隊融為一體,這是數(shù)據(jù)科學團隊所能擁有的最大價值。標新立異者(真正的創(chuàng)新者)幾乎必然會發(fā)現(xiàn)人們原本并不指望發(fā)現(xiàn)的價值或價值漏損,他們往往會讓業(yè)內(nèi)人士感到驚訝。價值并不存在于人們一開始認為它應該存在的地方。”
組織數(shù)據(jù)科學團隊
數(shù)據(jù)科學往往是一門興師動眾的學科。數(shù)據(jù)科學家是大多數(shù)數(shù)據(jù)科學團隊的前沿核心,但從數(shù)據(jù)轉(zhuǎn)向分析,然后將分析轉(zhuǎn)化為生產(chǎn)價值,這需要一系列技能和眾多角色的參與。例如,數(shù)據(jù)分析師應該參與數(shù)據(jù)研究,然后才將數(shù)據(jù)呈現(xiàn)給團隊,并維護數(shù)據(jù)模型。數(shù)據(jù)工程師必須構(gòu)建數(shù)據(jù)管道,以豐富數(shù)據(jù)集,使數(shù)據(jù)可供公司其他人使用。
eBates的分析副總裁Mark Stange-Tregear表示,從團隊角度思考,而不是尋求“獨角獸(將非線性思維與高等數(shù)學和統(tǒng)計知識以及編碼能力相結(jié)合的人)”,這很重要。
Stange-Tregear解釋說:“我認為數(shù)據(jù)工程并不是數(shù)據(jù)科學家的主要特征。我需要真正別出心裁的人。如果我可以找人來建模,評估統(tǒng)計數(shù)據(jù),并將該模型的利弊傳達給業(yè)務,那么我會聘請經(jīng)驗豐富到足以承接并實現(xiàn)該模型。”
將駐隊方法應用到數(shù)據(jù)科學
有些組織寧肯將數(shù)據(jù)科學家與其他職能合并到一起,而不是孤立數(shù)據(jù)科學團隊。例如,MapR的Dunning建議組織將數(shù)據(jù)運維(DataOps)方法運用到數(shù)據(jù)科學,將數(shù)據(jù)科學家安插到負有業(yè)務線職責的數(shù)據(jù)運維團隊中。這些數(shù)據(jù)運維團隊往往是跨職能的,遍及運營、軟件工程、架構(gòu)和規(guī)劃以及產(chǎn)品管理等“技能行會”,可以從頭到尾編排數(shù)據(jù)、工具、代碼和環(huán)境。數(shù)據(jù)運維團隊往往認為分析管道類似于生產(chǎn)線。
Dunning說:“從某種抽象的意義上說,數(shù)據(jù)科學并不是數(shù)據(jù)科學團隊的分內(nèi)職責。你想通過數(shù)據(jù)從這部分業(yè)務中獲取價值。一個孤立的數(shù)據(jù)科學團隊可能想部署最復雜的模型。駐隊數(shù)據(jù)科學家希望最終成果是可維護。他們在解決方案的選擇上十分功利,十分務實。”
也就是說,數(shù)據(jù)科學家不一定常駐在數(shù)據(jù)運維團隊中。
Dunning說:“團隊中通常會有一位隨隊一段時間的數(shù)據(jù)科學家。他的能力和敏感度會漸漸感染其他人。然后團隊中的某個人會擔任數(shù)據(jù)工程師,這有點像低配版的數(shù)據(jù)科學家。隨后駐隊數(shù)據(jù)科學家本人會繼續(xù)駐到另一個團隊。這是一個變動不居的情況。”
數(shù)據(jù)科學的目標和可交付成果
數(shù)據(jù)科學的目標是構(gòu)建這樣一種手段——從數(shù)據(jù)中獲取以業(yè)務為中心的洞察。這就需要人們理解企業(yè)中價值和信息的流動方式,并利用這種理解來發(fā)現(xiàn)商機的能力。雖然這可能涉及一次性項目,但更典型的情況是,數(shù)據(jù)科學團隊會設法發(fā)現(xiàn)關鍵的數(shù)據(jù)資產(chǎn),這些資產(chǎn)可以轉(zhuǎn)化為數(shù)據(jù)管道,為可維護的工具和解決方案提供支持。例如銀行使用的信用卡欺詐監(jiān)控解決方案,或用于優(yōu)化風電場中風力渦輪機布局的工具。
漸漸地,傳達團隊所做的事情的演示也成了重要的可交付成果。
RiskIQ的Hunt說:“要確保他們將成果傳達給公司的其它部門,這點非常重要。當一個數(shù)據(jù)科學團隊長時間不明就里時,團隊就會慢慢陷入困境。如果我們不經(jīng)常討論和推廣這一做法,很多產(chǎn)品經(jīng)理就會對此不以為然。”
數(shù)據(jù)科學的流程和方法
Hunt說,生產(chǎn)工程團隊以預計的日程進入沖刺周期(sprint cycle)。這對數(shù)據(jù)科學團隊來說通常很難做到,因為光是確認項目的可行性就要耗費大量的時間。
Hunt說:“很多時候,第一周,甚至第一個月,都是在做研究——收集數(shù)據(jù),清理數(shù)據(jù),我們有能力回答問題嗎?我們能否高效地做到這一點?我們花費大量的時間進行設計和研究,遠遠超過常規(guī)的工程團隊在這方面的表現(xiàn)。”
對于Hunt來說,數(shù)據(jù)科學應該遵循科學方法,盡管他指出事實并非總是如此,或總是可行。
Hunt說:“你設法從數(shù)據(jù)中獲得一些洞察。為了做到屢試不爽,確保你不是在吹噓,你必須用科學方法準確地證明假設,但我認為很多數(shù)據(jù)科學家實際上根本沒有使用任何科學。”
Hunt說,真正的科學不是一蹴而就的。你要花一點時間證實自己的假設,然后花很多時間設法證明自己是錯的。
Hunt說:“盡管有了數(shù)據(jù)科學,但你幾乎總是在一家不想花時間深入研究數(shù)據(jù),驗證這些假說的營利性公司。我們試圖回答的很多問題都是短時內(nèi)出現(xiàn)的問題。例如,在安全方面,我們要設法在明天找到威脅源(threat actor),而不是明年——趁威脅還沒廣泛傳播。”
Hunt說,因此,數(shù)據(jù)科學往往意味著要采用“足夠好”的答案,而不是最佳答案。然而,危險就在于,結(jié)果可能會成為確認偏誤(confirmation bias)或過擬合(overfitting)的犧牲品。
“如果這還不是科學的話,這就意味著你正在用科學方法來證實假說,那么你所做的事情不過是把數(shù)據(jù)丟給算法去處理而已。”
數(shù)據(jù)科學工具
數(shù)據(jù)科學團隊使用各種各樣的工具,包括SQL、Python、R、Java,以及Hive、oozie和TensorFlow等一系列開源項目。這些工具用于各種與數(shù)據(jù)相關的任務,從提取和清理數(shù)據(jù)到通過統(tǒng)計方法或機器學習對數(shù)據(jù)進行算法分析。
MapR的Dunning說:“數(shù)據(jù)科學家所需的首要工具是眼和手。締造價值的往往是最簡單的事物,這毫不稀奇。用批判的眼光看待數(shù)據(jù)的簡單的方面。探求事物如何運作的蛛絲馬跡。”
工具使數(shù)據(jù)科學團隊眼明手快。
Dunning說:“你需要優(yōu)秀的可視化工具。編程工具Python現(xiàn)在很受歡迎。你需要真正能用于建模的工具。只用一個工具是無法維持的。”
Dunning說,當MapR調(diào)查其客戶數(shù)據(jù)團隊時,團隊至少會用到5個建模工具,甚至還沒有涉及到可視化工具。
Dunning說:“事物變得越來越多元化,因為人們變得越來越多疑。其它建模技術會產(chǎn)生更好的模型嗎?”
從事數(shù)據(jù)科學的薪水
PayScale的數(shù)據(jù)指出,以下是一些與數(shù)據(jù)科學相關的最受歡迎的職位和每個職位的平均薪水:
•分析經(jīng)理:$82K-$120K
•商業(yè)智能分析師:$55K-$81K
• 數(shù)據(jù)分析師:$45K-$68K
• 數(shù)據(jù)架構(gòu)師:$75K-$152K
• 數(shù)據(jù)工程師:$63K-$131K
• 數(shù)據(jù)科學家:$79K-$120K
• 研究分析師:$43K-$63K
• 研究科學家:$58K-$97K
• 統(tǒng)計師:$58K-$90K
數(shù)據(jù)科學技能
數(shù)據(jù)科學是一門不斷發(fā)展的學科,參與其中的方法有很多。雖然數(shù)據(jù)科學學位課程的數(shù)量正在迅速增加,但組織在找數(shù)據(jù)科學家時不一定看重這些課程。
eBates的Stange-Tregear說,他要找有統(tǒng)計學背景的候選人,這樣他們就知道自己是否在研究真實的結(jié)果,研究能將結(jié)果置入情境的領域知識,研究可以讓他們向業(yè)務用戶傳達結(jié)果的溝通技巧。
他說:“如果我有一位可以包攬所有工作的數(shù)據(jù)科學家,那么讓數(shù)據(jù)工程團隊來實現(xiàn)這個,我是不放心的。”
RiskIQ的Hunt被擁有博士學位的候選人所吸引。
Hunt說:“我偏向于擁有博士學位的人,但我不會放棄那些有很多經(jīng)驗的人。博士學位向我傳達的信息是,你能夠?qū)σ粋€課題進行非常深入的研究,并且將這些信息傳達給其他人。但是,擁有堅實的背景或個人項目是非常有趣的。”
Hunt說,他特別想找物理、數(shù)學、計算機科學、經(jīng)濟學甚至社會科學領域的博士生。他不會對擁有數(shù)據(jù)科學或分析學位的申請人嗤之以鼻,但他確實有所保留。他說:“我的個人經(jīng)歷告訴我,后者非常有用,但它們過于關注模型的運作,而不是思維。”
MapR的Dunning不太關心申請人名號,他更在意他們是否能秀出新的事物。Dunning說:“招聘數(shù)據(jù)科學家時,我的首要問題是:參加面試的人是否讓我學到了什么?我要找的人并不是能我所能者,我熱切希望找到能我所不能者,或者那些可以教導團隊事務的人。”
Dunning指出,一些最優(yōu)秀的數(shù)據(jù)科學家或數(shù)據(jù)科學領域的領導者都有非常規(guī)的背景,一些與他合作過的最優(yōu)秀的人包括:一個上大學前做了6年園藝工作的人、一個有美術背景的人、一個有法國文學學位的人,還有一個是沒怎么受過計算機培訓的新聞專業(yè)學生。
Dunning說:“你要從數(shù)據(jù)感知(而非知道很多公式)的角度來考驗人。你要的是研究事物,理解事物的能力。”
數(shù)據(jù)科學培訓
鑒于目前數(shù)據(jù)科學人才短缺,很多組織正在制定培養(yǎng)內(nèi)部數(shù)據(jù)科學人才的計劃。
訓練營是培訓工人,使他們擔任數(shù)據(jù)科學職位的另一個快速發(fā)展的途徑。
數(shù)據(jù)科學學位
《美國新聞和世界報道(US News and World Report)》稱,以下是數(shù)據(jù)科學的頂尖研究生學位課程:
• 斯坦福大學數(shù)據(jù)科學專業(yè)的統(tǒng)計學碩士
• 伯克利信息學院的信息與數(shù)據(jù)科學碩士
• 卡內(nèi)基梅隆大學的計算數(shù)據(jù)科學碩士
• 哈佛大學約翰保爾森工程與應用科學學院的數(shù)據(jù)科學理學碩士
• 華盛頓大學的數(shù)據(jù)科學理學碩士
• 約翰霍普金斯大學懷廷工程學院的數(shù)據(jù)科學理學碩士
• 芝加哥大學格拉姆學院的分析學碩士
數(shù)據(jù)科學認證
組織需要有分析數(shù)據(jù)技術專業(yè)知識的數(shù)據(jù)科學家和分析師。他們還需要能將需求轉(zhuǎn)換為系統(tǒng)的大數(shù)據(jù)系統(tǒng)架構(gòu)師,需要能構(gòu)建和維護數(shù)據(jù)管道的數(shù)據(jù)工程師,需要了解Hadoop集群等技術的開發(fā)人員,以及將這一切聯(lián)系在一起的系統(tǒng)管理員和管理者。候選人證明自己有合適技能的一種方法是亮出證書。
大名鼎鼎的大數(shù)據(jù)和數(shù)據(jù)分析認證包括:
• Analytics: Optimizing Big Data Certificate
• Certificate in Engineering Excellence Big Data Analytics and Optimization (CPEE)
• Certification of Professional Achievement in Data Sciences
• Certified Analytics Professional
• Cloudera Certified Associate (CCA) AdministratorCloudera
• Cloudera Certified Associate (CCA) Data AnalystCloudera
• Cloudera Certified Associate (CCA) Spark and Hadoop DeveloperCloudera
• Cloudera Certified Professional (CCP): Data EngineerCloudera• EMC Proven Professional Data Scientist Associate (EMCDSA)EMC
• IBM Certified Data Architect – Big DataIBM
• IBM Certified Data Engineer – Big DataIBM
• Microsoft Certified Solutions Expert (MCSE): Data Management and AnalyticsMicrosoft
• Mining Massive Data Sets Graduate Certificate
• MongoDB Certified DBA AssociateMongoDB
• MongoDB Certified Developer AssociateMongoDB
• Oracle Business Intelligence Foundation Suite 11 Certified Implementation SpecialistOracle
• SAS Certified Big Data Professional
• SAS Certified Data Scientist Using SAS 9
• Stanford Data Mining and Applications Graduate Certificate