所謂數(shù)據(jù)科學(xué)家就是比軟件工程師更擅長統(tǒng)計(jì)學(xué),比統(tǒng)計(jì)學(xué)家更擅長軟件工程的人。
--Josh Wills, Cloudera云紀(jì)元
毫無疑問,數(shù)據(jù)科學(xué)是如今職場(chǎng)上最受追捧的技能之一。CNBC的一篇文章在綜合考慮就業(yè)機(jī)會(huì)、薪水中位數(shù)、體力工作強(qiáng)度、工作壓力等因素后,將“數(shù)據(jù)科學(xué)家”評(píng)選為2017年最受歡迎的10大職業(yè)之一。數(shù)據(jù)科學(xué)在職場(chǎng)中確實(shí)越來越熱,數(shù)據(jù)科學(xué)家年薪的中位數(shù)超過了11萬美元而且職場(chǎng)中對(duì)于數(shù)據(jù)科學(xué)家的需求有16%的預(yù)期增長。
話雖如此,想要成為一名數(shù)據(jù)科學(xué)家卻并不簡(jiǎn)單。這份工作在要求全面扎實(shí)的技術(shù)能力的同時(shí),還要求豐富的想象力。數(shù)據(jù)科學(xué)家必須有能力收集恰當(dāng)?shù)臄?shù)據(jù)、將之整理為合適分析的形式、設(shè)計(jì)創(chuàng)造性地方法來實(shí)現(xiàn)數(shù)據(jù)可視化、并挖掘數(shù)據(jù)信息來回答具體問題。
正因如此,頂級(jí)數(shù)據(jù)科學(xué)家在技術(shù)型公司通常會(huì)得到搖滾巨星般的待遇。然而,數(shù)據(jù)“極客”的生活跟“輕松”兩個(gè)字卻毫不沾邊。新工具和新技術(shù)每天都如同雨后春筍般不斷涌現(xiàn),數(shù)據(jù)科學(xué)家必須不斷更新知識(shí)和技能,才能保住自己在公司的地位。
那么,就讓我們來看看數(shù)據(jù)科學(xué)家有哪些日常。
1、當(dāng)被別人問:“什么是大數(shù)據(jù)?”
“啥,你逗我?”⊙o⊙
我們生活在高度數(shù)字化的世界,大數(shù)據(jù)無處不在。通過社交媒體、網(wǎng)銀、GPS、電子商務(wù),我們無時(shí)不刻都在生成海量的數(shù)據(jù)。事實(shí)上,據(jù)報(bào)道,我們每天生成的數(shù)據(jù)量高達(dá)2.5兆字節(jié)。
大數(shù)據(jù)已經(jīng)改變了我們與人溝通的方式和生活方式。借助大數(shù)據(jù)分析,零售網(wǎng)站得以針對(duì)用戶喜好發(fā)送精準(zhǔn)的產(chǎn)品推薦,政府機(jī)關(guān)得以掌握并預(yù)測(cè)犯罪行為,交管部門得以管控交通流量,執(zhí)業(yè)醫(yī)師得以更精確地診斷疾病。
大數(shù)據(jù)的應(yīng)用簡(jiǎn)直不勝枚舉,而且切實(shí)而有效地提高了我們的生活質(zhì)量,因此每個(gè)人都應(yīng)該很熟悉“大數(shù)據(jù)”這個(gè)詞了。
2、你第一次跑通R代碼是什么時(shí)候?
有一天,新手?jǐn)?shù)據(jù)科學(xué)家會(huì)懂上邊這張圖。R編程是數(shù)據(jù)科學(xué)領(lǐng)域最必不可少的技能之一。KDnuggets上就有文章認(rèn)為, R是2016年分析和數(shù)據(jù)科學(xué)領(lǐng)域最受歡迎的軟件,而Python僅排名第二。
考慮到R在市面上的受歡迎程度,當(dāng)R代碼如你所愿發(fā)揮作用時(shí),你會(huì)情不自禁地認(rèn)為自己就是數(shù)據(jù)之王。
3、當(dāng)你不得不處理非結(jié)構(gòu)化流數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)分析通常被稱為“暗黑分析”(dark analytics)。這個(gè)令人生畏的名號(hào)絕非虛張聲勢(shì),而是貨真價(jià)實(shí)、毫不夸張。
即使是最嫻熟的數(shù)據(jù)科學(xué)家,處理起非結(jié)構(gòu)化流數(shù)據(jù)來也免不了一個(gè)腦袋兩個(gè)大。不論是社交媒體、視頻、客戶日志還是地理空間服務(wù)數(shù)據(jù),分析工作都需要在多元數(shù)據(jù)上實(shí)時(shí)、增量進(jìn)行。此外,時(shí)效性也是此類數(shù)據(jù)分析工作的重中之重。
因此,當(dāng)你一腳踏入暗黑分析的領(lǐng)域,那種(面對(duì)龐然大物茫然不知所措的)感覺就跟試圖揭開宇宙奧秘的空間科學(xué)家毫無二致。
4、當(dāng)你模型的預(yù)測(cè)準(zhǔn)確度高于90
這可不是小事。為了做好分析工作,數(shù)據(jù)科學(xué)家必須在數(shù)據(jù)研究、解讀、準(zhǔn)備和處理上投入大量的時(shí)間,這個(gè)過程需要極大的耐心和努力。然而,如果你構(gòu)建的模型的準(zhǔn)確預(yù)測(cè)度可以達(dá)到90%以上,回報(bào)也是無比豐厚的。
當(dāng)客戶、經(jīng)理、同事的贊揚(yáng)和欣賞如潮水般向你涌來時(shí),你在喜不自勝之余腦海里只會(huì)記得一件事 — 周末嗨翻天!
5、當(dāng)你想要找出模型中的漏洞
從成百上千行代碼中找到錯(cuò)誤,就跟讓宿醉的你去大海里撈針一樣痛苦。
但是直面現(xiàn)實(shí)吧,這就是工作呀,誰讓你是數(shù)據(jù)科學(xué)家呢。
6、當(dāng)你的經(jīng)理問及漏洞修復(fù)進(jìn)展
通常情況下,數(shù)據(jù)科學(xué)機(jī)構(gòu)中的經(jīng)理們都不了解技術(shù)性任務(wù)的實(shí)質(zhì),不論是排查模型缺陷或者改善模型性能;他們普遍更加關(guān)注項(xiàng)目管理(例如最后時(shí)限等。)
面對(duì)“這個(gè)項(xiàng)目什么時(shí)候能結(jié)束?”這樣的問題,數(shù)據(jù)科學(xué)家能做的就是能拖一會(huì)兒就拖一會(huì)兒或者干脆消失。
7、當(dāng)你的小白朋友指出了你模型的漏洞
你死死盯著代碼,幾個(gè)小時(shí)過去了卻一無所獲。就在你幾乎要放棄的時(shí)候,一個(gè)朋友偶然掃了一眼,馬上就指出了其中的錯(cuò)誤。
最初的尷尬和怒火過去之后,你很快就會(huì)松一口氣,畢竟麻煩事兒又少了一件。
沒什么大不了的,我們可以這樣安慰自己:“旁觀者清嘛”。
8、當(dāng)你的SQL查詢跑的特別慢
慢吞吞的服務(wù)器,糟糕的網(wǎng)絡(luò)情況,或者別的什么原因,都會(huì)導(dǎo)致SQL查詢執(zhí)行的特別慢,就跟看著油漆一點(diǎn)點(diǎn)風(fēng)干一樣;當(dāng)然你也不用一直盯著電腦屏幕,倒杯咖啡,讓SQL自己飛一會(huì)吧。
這很無聊,而且極耗耐心;不過大家都是這樣過來的。
9、 當(dāng)你好不容易建好模,用戶又要改數(shù)據(jù)
在費(fèi)盡九牛二虎之力分析數(shù)據(jù)、建了無數(shù)模型,分析出了無數(shù)趨勢(shì)后,你最不想聽到的就是你用的是“錯(cuò)誤”數(shù)據(jù)。
也就是說,你要分析一套完全不同的數(shù)據(jù)集,所有的模型都要進(jìn)行重大調(diào)整,從頭再來一遍。痛苦啊!
10、當(dāng)你再有20分鐘就要見客戶,但PPT還沒做好
你剛做完見客戶的PPT,擦擦皮鞋整整領(lǐng)帶就可以去見客戶了吧?就大多數(shù)情況而言,答案是否定的。
數(shù)據(jù)工程師需要跟同事和經(jīng)理復(fù)核PPT;這意味著在最后一分鐘內(nèi)PPT會(huì)有無數(shù)改動(dòng)。做這些改動(dòng)是非常有壓力的,因?yàn)檫@關(guān)系到你的個(gè)人聲譽(yù)、業(yè)務(wù)成敗、公司形象、甚至你的職業(yè)前途。
不過,當(dāng)你最終得到客戶首肯時(shí),你會(huì)意識(shí)到有些改變是非常關(guān)鍵的,而且能讓你的案例更有說服力。
正如大名鼎鼎的史蒂芬·喬布斯說的:
“偉大的商業(yè)成就絕非一人可為,而是團(tuán)隊(duì)之功。”
11、客戶最終認(rèn)同你的模型的輸出結(jié)果
這是所有數(shù)據(jù)科學(xué)家都天天幻想的時(shí)刻。
面對(duì)要求極高、條件極為嚴(yán)苛的客戶,你夜以繼日的努力工作,力求模型達(dá)到最大限度的精確有效。你不得不一次又一次給自己打氣,拿出最大的耐心來面對(duì)這幫鬧心的客戶。然而,當(dāng)客戶真心實(shí)意地向你豎起大拇指時(shí),最終的勝利是屬于你的。
Kirk Borne博士對(duì)此有著精辟見解:
“客戶可能會(huì)出錯(cuò),但客戶永遠(yuǎn)是客戶。”
12、當(dāng)市場(chǎng)迎來一家新的大數(shù)據(jù)公司
分析行業(yè)發(fā)展十分迅猛,新工具和新技術(shù)也層出不窮。數(shù)據(jù)科學(xué)家見證著各種大數(shù)據(jù)、分析和深度學(xué)習(xí)工具的不斷涌現(xiàn)。
數(shù)據(jù)極客骨子里都是持續(xù)學(xué)習(xí)者,他們對(duì)于業(yè)內(nèi)新發(fā)展永遠(yuǎn)持開放態(tài)度,并且會(huì)隨之拓展自己的知識(shí)和技能。