這是一個(gè)好消息,如果你希望在2016年找一份數(shù)據(jù)科學(xué)的工作—在該領(lǐng)域職位空缺的數(shù)量正在不斷增加,企業(yè)希望利用大數(shù)據(jù)來獲得競爭優(yōu)勢。但事實(shí)上,找一份夢寐以求的數(shù)據(jù)科學(xué)工作就意味著你要具備一些技能的組合,你可能會驚訝學(xué)習(xí)哪些技能是雇主所最需要的。
最近,人們在CrowdFlower上針對Linkedin的3490個(gè)數(shù)據(jù)科學(xué)職位做了分析,并對最常出現(xiàn)的21個(gè)技能進(jìn)行了排序。有些結(jié)果并不那么令人驚訝—SQL排在最前,而其它的結(jié)果可能是數(shù)據(jù)科學(xué)領(lǐng)域不斷發(fā)展的領(lǐng)先指標(biāo)。
如上所述,SQL是最常見的技能,在Linkedin發(fā)布的所有數(shù)據(jù)科學(xué)工作中占比達(dá)到了57%。Hadoop排在第二,占比49%。這并不出乎CrowdFlower公司CEO和創(chuàng)始人Lukas Biewald的意料。CrowdFlower是美國硅谷一家從事眾包數(shù)據(jù)處理的公司。
“SQL和Hadoop排在前兩位并沒什么驚訝的,因?yàn)樗鼈儽旧砭褪谴鎯?shù)據(jù)的技術(shù)”Biewald告訴Datanami(本文轉(zhuǎn)譯自該網(wǎng)站)。“每個(gè)數(shù)據(jù)科學(xué)家必須知道如何獲取數(shù)據(jù)。如果你不知如何獲取數(shù)據(jù),那你什么都做不了。”
在所有數(shù)據(jù)科學(xué)的招聘信息中,python是排在第三名的技能。在CrowdFlower去年關(guān)于數(shù)據(jù)科學(xué)家哪些技能是最重要的調(diào)查中,python排在R的后面。但在本次招聘信息的調(diào)查中(這無疑是更具有前瞻性的范圍),python作為數(shù)據(jù)科學(xué)的一項(xiàng)關(guān)鍵性技能占比達(dá)到了39%。相比之下,R是32%。
相比R來說,為什么現(xiàn)在越來越多的雇主正在尋找具備python技能的數(shù)據(jù)科學(xué)家?Biewald提出了自己的看法:“python的工具集越來越好。已經(jīng)有很多基于python的統(tǒng)計(jì)工具”。“還有一個(gè)認(rèn)識是數(shù)據(jù)科學(xué)不僅僅是統(tǒng)計(jì)學(xué)”。
設(shè)想一下,數(shù)據(jù)科學(xué)家80%的時(shí)間花費(fèi)在數(shù)據(jù)清理和數(shù)據(jù)準(zhǔn)備上,而只有20%的時(shí)間是用來做分析。這或許可以解釋python突然出現(xiàn)的原因。
“我認(rèn)為Python是做數(shù)據(jù)清理的語言,而R是做分析的”,Biewald說到。在創(chuàng)辦CrowdFlower之前,他負(fù)責(zé)領(lǐng)導(dǎo)Yahoo的搜索相關(guān)團(tuán)隊(duì)。“由于數(shù)據(jù)科學(xué)更多的是做數(shù)據(jù)清洗和準(zhǔn)備,python正變得越來越重要。它無疑是將數(shù)據(jù)整理成適合做分析的數(shù)據(jù)格式最好的語言”。
事實(shí)上,Java排在第四位讓人有點(diǎn)摸不著頭腦。因?yàn)镴ava本身不是數(shù)據(jù)科學(xué)所要求的掌握一門語言,當(dāng)你在java中寫Hadoop的時(shí)候,它的高配就顯得有道理了。其它跟Hadoop相關(guān)的工具都排在前10,包括Hive(31%),MapReduce(22%)和Pig(16%)。
對于這份CrowdFlower從Linkedin編輯過來的職位列表,多少有些遺漏。Apache Spark,在上面給出的數(shù)據(jù)科學(xué)技能要求中沒有出現(xiàn)過。Scala也沒有出現(xiàn)過,它是在Spark框架內(nèi)處理數(shù)據(jù)的主要途徑之一。
這可能是因?yàn)镾park還比較前沿,大家對它知之甚少。“現(xiàn)在周圍對它有很多炒作,但可能還是太早了”Biewald說到。“在CrowdFlower,我們已經(jīng)開始使用它了。我認(rèn)為這門技術(shù)很棒,但在企業(yè)真正使用它的時(shí)候會有些滯后”。
Spark和Scala可能是數(shù)據(jù)科學(xué)的未來(它們在Alphabet[NASDAQ:GOOGL]公司中得到大力支持,硅谷的許多高科技公司也在廣泛的使用它們)。但不是每個(gè)數(shù)據(jù)科學(xué)項(xiàng)目或團(tuán)隊(duì)都需要走在技術(shù)的最前沿才能實(shí)現(xiàn)他們的大數(shù)據(jù)成果。“令人驚訝的是現(xiàn)在很多人都在尋找數(shù)據(jù)科學(xué)家,但是我認(rèn)為他們中的很多人是不想走在最前沿的”Biewald說到。
這份CrowdFlower列表中包含了許多知名的數(shù)據(jù)分析工具,包括SAS(占比16%),SPSS(10%),Matlab(10%)和Stata(占比3%)。Biewald認(rèn)為這些工具仍是有價(jià)值的并且在未來一段時(shí)間內(nèi)還會繼續(xù)使用。但是他希望它們的市場份額逐漸被那些專門為大數(shù)據(jù)設(shè)計(jì)的新工具所奪走。
“數(shù)據(jù)科學(xué)的角色大于統(tǒng)計(jì)學(xué)家”他說。“在我們的腦海里,這些舊的語言更多的是建立在統(tǒng)計(jì)學(xué)家的基礎(chǔ)上,它們只是對少量的數(shù)據(jù)進(jìn)行分析。而排名在前的Hadoop,python和Java則可以運(yùn)行TB級的數(shù)據(jù)。你可以用SAS,SPSS,Matlab來做大數(shù)據(jù)分析,但這不是它們設(shè)計(jì)的目的”。
不是每個(gè)人都同意“數(shù)據(jù)科學(xué)”或“數(shù)據(jù)科學(xué)家”應(yīng)該做什么以及應(yīng)該掌握什么樣技能的定義。事實(shí)上,一些人反對使用術(shù)語“科學(xué)”,而寧愿用諸如“應(yīng)用統(tǒng)計(jì)”的短語。(想起了哈佛商業(yè)評論稱應(yīng)用統(tǒng)計(jì)學(xué)家是21世紀(jì)最性感的職業(yè))
但在Biewald和其他人眼中,處理數(shù)據(jù)的能力和統(tǒng)計(jì)分析的能力同等重要。這就是他對數(shù)據(jù)科學(xué)家進(jìn)一步給出的定義。
“在過去,我們處理幾千條記錄的時(shí)候不是特別難。但是,當(dāng)數(shù)據(jù)量達(dá)到數(shù)十億條記錄的時(shí)候我們就需要真本事來得到一個(gè)規(guī)范的格式,以便我們進(jìn)一步做回歸或機(jī)器學(xué)習(xí)”他說。“對于這種情況,我想要聘請的是一名掌握python或者是C、Perl、Ruby亦或是一門更多做數(shù)據(jù)處理而不是做數(shù)據(jù)分析的語言的數(shù)據(jù)科學(xué)家”。