新年并非僅僅是更換日歷或是清晨起床后揉開雙眼。新年是充滿喜悅的一個(gè)嶄新開始。它給我們一個(gè)完美的理由養(yǎng)成一個(gè)新習(xí)慣,它意味著新“希望”的到來(lái)。
如果你正在閱讀這篇文章,我確信數(shù)據(jù)科學(xué)會(huì)讓你興奮!你要在2016年做出改變,難道不是嗎?如果你從今天開始致力于實(shí)現(xiàn)這些目標(biāo),這是完全可能的。你必須明白,成為一個(gè)數(shù)據(jù)科學(xué)家需要一個(gè)過(guò)程,它不是一朝一夕的成功。因此,你必須耐心地朝著目標(biāo)而努力。
提示:1. 原文中涉及了大量鏈接,值得收藏!在大數(shù)據(jù)文摘后臺(tái),回復(fù)“計(jì)劃”,可下載doc文件,獲取文中提供的所有鏈接。
2.這些通用的學(xué)習(xí)計(jì)劃是為有抱負(fù)的/有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家準(zhǔn)備的。該文章可能不適合非數(shù)據(jù)分析領(lǐng)域的人員。
一個(gè)數(shù)據(jù)科學(xué)家的新年計(jì)劃
我已經(jīng)將這些學(xué)習(xí)計(jì)劃根據(jù)數(shù)據(jù)科學(xué)家的三個(gè)水平階段進(jìn)行了分類。你來(lái)決定那個(gè)階段最適合你,并進(jìn)行實(shí)踐。當(dāng)你完成本階段的學(xué)習(xí)任務(wù)后,便可進(jìn)入下一個(gè)階段。針對(duì)不同的學(xué)習(xí)主題,我列出了可獲取的最好的課程。為了達(dá)到最佳效果,我建議你逐一學(xué)習(xí)這些課程。如果你覺(jué)得課程學(xué)習(xí)困難,請(qǐng)與我討論,我會(huì)給你提供一個(gè)備選方案。方便起見(jiàn),我分享了可供下載的連接。
初級(jí)水平
誰(shuí)是初學(xué)者?如果數(shù)據(jù)分析和數(shù)據(jù)科學(xué)對(duì)你來(lái)說(shuō)是一個(gè)全新的領(lǐng)域,你不了解這個(gè)行業(yè)是如何運(yùn)作的,但是,你滿懷好奇的在該領(lǐng)域發(fā)展你的事業(yè),那么,你就是個(gè)初學(xué)者。下面就是你的學(xué)習(xí)目標(biāo):
1.從編程語(yǔ)言開始,無(wú)論是R或Python。我曾看到有學(xué)生同時(shí)學(xué)習(xí)R和Python。最終,他們什么都沒(méi)學(xué)會(huì)。這種學(xué)習(xí)方法很糟糕。你必須保證自己深入學(xué)習(xí)R或Python。這是兩個(gè)在公司中廣泛應(yīng)用的開源工具。Python是公認(rèn)的最簡(jiǎn)單的編程語(yǔ)言。R仍是人們最為喜愛(ài)的統(tǒng)計(jì)工具。選擇權(quán)在你。兩者都很好。
學(xué)習(xí)課程:在Codecademy完成Python的學(xué)習(xí)。在DataCamp完成R的學(xué)習(xí)。
2.學(xué)習(xí)統(tǒng)計(jì)學(xué)和數(shù)學(xué)統(tǒng)計(jì)學(xué)是關(guān)于假設(shè)和運(yùn)算的學(xué)科。但是,如果你不懂統(tǒng)計(jì)和數(shù)學(xué),很難在這個(gè)行業(yè)立足。它是數(shù)據(jù)科學(xué)家的核心競(jìng)爭(zhēng)力。如果你的數(shù)學(xué)不好,是時(shí)候改變了。習(xí)慣使用強(qiáng)大的統(tǒng)計(jì)技術(shù)、代數(shù)和概率學(xué)。在可汗學(xué)院(Khan Academy)、 Udacity 等平臺(tái)上有非常棒的統(tǒng)計(jì)學(xué)課程。裝上這些APP,便可馬上開始學(xué)習(xí)。
學(xué)習(xí)課程:在Udacity上完成 Inferential和Descriptive統(tǒng)計(jì)學(xué)習(xí)。在 Khan Academy完成代數(shù)的學(xué)習(xí)。
3.報(bào)名參加一個(gè)大型開放式網(wǎng)絡(luò)課程(MOOC)大型開放式網(wǎng)絡(luò)課程(簡(jiǎn)稱MOOC)可以自由訪問(wèn)和學(xué)習(xí)。但是,這是你做出的最難實(shí)現(xiàn)的承諾。學(xué)生們通常一次性報(bào)名參加多個(gè)課程,但最終一個(gè)也完成不了。因此,你必須專注于一個(gè)課程,完成之后,在進(jìn)入下一個(gè)課程的學(xué)習(xí)。你可以在coursera, edX, Udacity上學(xué)習(xí)任何課程。
學(xué)習(xí)課程:在Coursera完成數(shù)據(jù)科學(xué)專業(yè)(R)的學(xué)習(xí)。在Dataquest完成數(shù)據(jù)科學(xué)Python的學(xué)習(xí)。
4.積極參與行業(yè)實(shí)踐,發(fā)現(xiàn)新事物你需要知道這個(gè)行業(yè)正在發(fā)生哪些變化。我們生活在一個(gè)充滿活力又瞬息萬(wàn)變的世界。今天還十分盛行的技術(shù)明天可能就過(guò)時(shí)了。你必須與經(jīng)驗(yàn)豐富的專家交流,結(jié)識(shí)“未來(lái)的自己”?,F(xiàn)在就開始行動(dòng)吧,加入討論、參加聚會(huì)、關(guān)注博客、參加團(tuán)體活動(dòng),并閱讀專業(yè)書籍。你可以在Facebook 上跟進(jìn)這方面的最新消息。
中等水平
誰(shuí)是中等水平的數(shù)據(jù)科學(xué)家?如果你已經(jīng)完成了初級(jí)水平的學(xué)習(xí),并且已經(jīng)嘗使用機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí),熟練掌握了建立預(yù)測(cè)模型的知識(shí),那么你已經(jīng)到達(dá)了數(shù)據(jù)科學(xué)家的中級(jí)水平。達(dá)到這個(gè)水平需要巨大的決心和大量的練習(xí)。準(zhǔn)備好迎接這個(gè)挑戰(zhàn)了嗎?
1. 理解并構(gòu)建機(jī)器學(xué)習(xí)技能
機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)與技術(shù)的未來(lái)。所有大公司在雇傭該項(xiàng)技術(shù)人才方面投入大量的資金和人力。毫無(wú)疑問(wèn),當(dāng)前這種人才的市場(chǎng)需求巨大。對(duì)個(gè)人而言,也是個(gè)不可多得的好機(jī)會(huì)。今年,你應(yīng)當(dāng)在機(jī)器學(xué)習(xí)方面深入拓展。熟練掌握回歸分析(Regression)、聚類分析( Clustering)、 CART 算法。打開下面的連接,你可以找到關(guān)于機(jī)器學(xué)習(xí)方面的免費(fèi)學(xué)習(xí)資源:
學(xué)習(xí)課程:在Andrew Ng完成機(jī)器學(xué)習(xí)的課程。
2. 專注于Ensemble和Boosting 算法的學(xué)習(xí)
一旦你對(duì)機(jī)器學(xué)習(xí)充滿自信,那么轉(zhuǎn)攻下一個(gè)模型吧。使用boosting和ensemble算法,可以使得模型的精度遠(yuǎn)遠(yuǎn)高于其他算法。上面分享的免費(fèi)學(xué)習(xí)資源已經(jīng)涵蓋了這個(gè)主題。但是,要讓自己更深入的理解這個(gè)主題。
學(xué)習(xí)課程:閱讀 Kaggle的Ensembling 指南(Guide)。在MIT Lecture完成Boosting的學(xué)習(xí)。
3. 探索使用Spark, NoSQL以及其他大數(shù)據(jù)處理工具
本年,你將開啟自己的大數(shù)據(jù)之旅。鑒于大數(shù)據(jù)人才需求的蓬勃發(fā)展,你必須學(xué)會(huì)Spark軟件。最近它非常流行。大數(shù)據(jù)的未來(lái)依賴于Spark,它被廣泛應(yīng)用于大數(shù)據(jù)的操作和處理。通過(guò)學(xué)習(xí)Spark,你還可以拓展自己的專業(yè)知識(shí)到NoSQL , Hadoop上。
學(xué)習(xí)課程:首先學(xué)習(xí)Spark.
4. 教育社區(qū)同伴
還有什么比知識(shí)分享更棒!從今年開始,同那些努力學(xué)習(xí)數(shù)據(jù)科學(xué)的人分享你的知識(shí)。你可以加入活躍的數(shù)據(jù)科學(xué)論壇(forums),幫他們解疑答惑,教會(huì)他們有用的技巧和竅門。你也可以舉辦類似的聚會(huì)。
行動(dòng)指南:追隨我們Facebook。
5. 參加數(shù)據(jù)科學(xué)競(jìng)賽
是時(shí)候檢驗(yàn)?zāi)愕膶W(xué)習(xí)效果了。今年你必須參一些競(jìng)賽,它能幫你認(rèn)清自己的長(zhǎng)處和短板。此外,你會(huì)對(duì)已掌握的知識(shí)更加自信。我希望你能榮登Kaggle Top500排名榜。從現(xiàn)在開始,你的目標(biāo)是成為the Last Man Standing(點(diǎn)擊打開連接,這是一個(gè)數(shù)據(jù)科學(xué)領(lǐng)域的競(jìng)賽)。
行動(dòng)指南:加入Kaggle 和 Data Hack。
提示:比賽可能有點(diǎn)兒難。你可以通過(guò)查看這些實(shí)際問(wèn)題來(lái)檢查自己的技能和知識(shí)。他們一點(diǎn)兒不難,但非常有趣!
高級(jí)水平
我無(wú)需定義這類人群。大部分人都非常害怕去嘗試數(shù)據(jù)科學(xué),但他們卻十分精通。他們已經(jīng)過(guò)上了輕松愜意的生活,但是,他們熱愛(ài)挑戰(zhàn)。他們是經(jīng)驗(yàn)豐富的專家。下面是一些學(xué)習(xí)計(jì)劃:
1.構(gòu)建一個(gè)深度學(xué)習(xí)模型(deep learning model)
今年,你要為立志于成為數(shù)據(jù)科學(xué)家的人樹立榜樣。你必須創(chuàng)建深度學(xué)習(xí)(deeplearning)的模型。在世界各地,已經(jīng)有人使用這些模型進(jìn)行預(yù)測(cè)了。這是機(jī)器學(xué)習(xí)的高級(jí)階段。其準(zhǔn)確性已明顯優(yōu)于一般的機(jī)器學(xué)習(xí)模型。
學(xué)習(xí)課程:完成Tutorial 的深度學(xué)習(xí)。
2. 回饋社群
我相信知識(shí)是用于分享而不是用于存儲(chǔ)的。分享得越多,學(xué)到的越多。換種方法解釋,“你學(xué)到一個(gè)新概念,然后解釋給你的兩個(gè)朋友聽,你對(duì)這個(gè)概念的記憶可能會(huì)更久。“今年,你制定一個(gè)計(jì)劃,利用你的知識(shí)和經(jīng)驗(yàn)幫助數(shù)據(jù)分析社區(qū)的成員。這會(huì)幫助那些在數(shù)據(jù)分析領(lǐng)域苦苦掙扎的人們找到勝利的彼岸。
行動(dòng)計(jì)劃:在Discuss 上分享你的知識(shí)。
3.探索強(qiáng)化學(xué)習(xí)(Reinforcement Learning)
強(qiáng)化學(xué)習(xí)是(Reinforcement Learning)機(jī)器學(xué)習(xí)中最強(qiáng)大的,然而少有人開發(fā)的一個(gè)分支。今年,在這一領(lǐng)域做些研究。雖然很有挑戰(zhàn)性,但值得一試。無(wú)人駕駛、間諜無(wú)人機(jī)就是強(qiáng)化學(xué)習(xí)的成果。一旦你開始涉足該領(lǐng)域,你就自動(dòng)進(jìn)入人工智能領(lǐng)域。
學(xué)習(xí)課程:完成Andrew Moore的tutorial。
4. 進(jìn)入Kaggle前50名
今年,你必須保持住在Kaggle上的“大師”地位,準(zhǔn)確的講,確保自己在Kaggle排名進(jìn)入前50。參加適合自己領(lǐng)域的相關(guān)競(jìng)賽,與其他kagglers組隊(duì)。參與這個(gè)水平的競(jìng)賽,你會(huì)學(xué)習(xí)到一些在其他地方學(xué)不到的理念。
行動(dòng)計(jì)劃:加入Kaggle
追蹤你的進(jìn)程。2016年新年學(xué)習(xí)計(jì)劃表 Download
結(jié)束語(yǔ)
我理解,這些學(xué)習(xí)計(jì)劃對(duì)你具有挑戰(zhàn)性,但值的一試。根據(jù)你當(dāng)前的情況,自由選擇適合自己的學(xué)習(xí)計(jì)劃。我只是羅列了有抱負(fù)的數(shù)據(jù)科學(xué)家必須要知道的重要知識(shí)和技能。
在上周我意識(shí)到,人們并沒(méi)有足夠的勇氣制定新年計(jì)劃。這個(gè)問(wèn)題也曾困擾著我。因此,我決定寫下這篇文章。我希望,在2016年結(jié)束之前,你會(huì)完成初級(jí)水平的學(xué)習(xí)(假設(shè)你是一個(gè)新手)。
這篇文章已經(jīng)為你制定新年計(jì)劃掃除了障礙。作為一個(gè)有野心的數(shù)據(jù)科學(xué)家,我已經(jīng)為你提供了“硬骨頭”,就等著你去啃下它了。在學(xué)習(xí)的過(guò)程中如果遇到任何困難,請(qǐng)?jiān)谙旅娴脑u(píng)論分享你的想法。