基本答一下吧,但是不是很準確,只了解大致情況(杭州),帶有某種行業(yè)自黑。
1. 第一階段(一般崗位叫數(shù)據(jù)專員)
基本學會excel(VBA最好學會;會做透視表;熟練用篩選、排序、公式),做好PPT。這樣很多傳統(tǒng)公司的數(shù)據(jù)專員已經(jīng)可以做了
2. 第二階段(數(shù)據(jù)專員~數(shù)據(jù)分析師)
這一階段要會SQL,懂業(yè)務(wù),加上第一階段的那些東西。大多數(shù)傳統(tǒng)公司和互聯(lián)網(wǎng)小運營、產(chǎn)品團隊夠用了。
3. 第三階段(數(shù)據(jù)分析師)
統(tǒng)計學熟練(回歸、假設(shè)檢驗、時間序列、簡單蒙特卡羅),可視化,PPT和excel一定要溜。這些技術(shù)就夠了,能應(yīng)付大多數(shù)傳統(tǒng)公司業(yè)務(wù)和互聯(lián)網(wǎng)業(yè)務(wù)。
4. 第四階段(分裂)
數(shù)據(jù)分析師(數(shù)據(jù)科學家)、BI等:這部分一般是精進統(tǒng)計學,熟悉業(yè)務(wù),機器學習會使用(調(diào)參+選模型+優(yōu)化),取數(shù)、ETL、可視化啥的都是基本姿態(tài)。
可視化工程師:這部分國內(nèi)比較少,其實偏重前端,會high charts,d3.js, echarts.js。技術(shù)發(fā)展路線可以獨立,不在這四階段,可能前端轉(zhuǎn)行更好。
ETL工程師:顧名思義,做ETL的。
大數(shù)據(jù)工程師:熟悉大數(shù)據(jù)技術(shù),hadoop系二代。
數(shù)據(jù)工程師(一部分和數(shù)據(jù)挖掘工程師重合):機器學習精通級別(往往是幾種,不用擔心不是全部,和數(shù)據(jù)分析師側(cè)重點不同,更需要了解組合模型,理論基礎(chǔ)),會組合模型形成數(shù)據(jù)產(chǎn)品;計算機基本知識(包括linux知識、軟件工程等);各類數(shù)據(jù)庫(RDBMS、NoSQL(4大類))
數(shù)據(jù)挖掘:和上基本相同。
爬蟲工程師:顧名思義,最好http協(xié)議、tcp/ip協(xié)議熟悉。技術(shù)發(fā)展路線可以獨立,不在這四階段
發(fā)現(xiàn)回答的有點文不對題額,不過大致是所有從底層數(shù)據(jù)工作者往上發(fā)展的基本路徑。往數(shù)據(jù)發(fā)展的基本學習路徑可以概括為以下內(nèi)容:
1. EXCEL、PPT(必須精通)
數(shù)據(jù)工作者的基本姿態(tài),話說本人技術(shù)并不是很好,但是起碼會操作;要會大膽秀自己,和業(yè)務(wù)部門交流需求,展示分析結(jié)果。技術(shù)上回VBA和數(shù)據(jù)透視就到頂了。
2. 數(shù)據(jù)庫類(必須學)
初級只要會RDBMS就行了,看公司用哪個,用哪個學哪個。沒進公司就學MySQL吧。
NoSQL可以在之后和統(tǒng)計學啥的一起學。基本的NoSQL血MongoDB和Redis(緩存,嚴格意義上不算數(shù)據(jù)庫),然后(選學)可以了解各類NoSQL,基于圖的數(shù)據(jù)庫Neo4j,基于Column的數(shù)據(jù)庫BigTable,基于key-value的數(shù)據(jù)庫redis/cassendra,基于collection的數(shù)據(jù)庫MongoDB。
3. 統(tǒng)計學(必須學)
如果要學統(tǒng)計學,重要概念是會描述性統(tǒng)計、假設(shè)檢驗、貝葉斯、極大似然法、回歸(特別是廣義線性回歸)、主成分分析。這些個用的比較多。也有學時間序列、bootstrap、非參之類的,這個看自己的意愿。
其他數(shù)學知識:線性代數(shù)常用(是很多后面的基礎(chǔ)),微積分不常用,動力系統(tǒng)、傅里葉分析看自己想進的行業(yè)了。
4. 機器學習(數(shù)據(jù)分析師要求會選、用、調(diào))
常用的是幾個線性分類器、聚類、回歸、隨機森林、貝葉斯;不常用的也稍微了解一下;深度學習視情況學習。
5. 大數(shù)據(jù)(選學,有公司要求的話會用即可,不要求會搭環(huán)境)
hadoop基礎(chǔ),包括hdfs、map-reduce、hive之類;后面接觸spark和storm再說了。
6. 文本類(選學,有公司要求的話會用即可)
這部分不熟,基本要知道次感化、分詞、情感分析啥的。
7. 工具類
語言:非大數(shù)據(jù)類R、Python最多(比較geek的也有用julia的,不差錢和某些公司要求的用SAS、Matlab);大數(shù)據(jù)可能還會用到scala和java。
可視化(選學):tableau、 http:// plot.ly 、d3.js、echarts.js,R里面的ggplot、ggvis,Python里的bokeh、matplotlib、seaborn都不錯
數(shù)據(jù)庫語言:看你自己用啥學啥
其他框架、類庫(選學):爬蟲(requests、beautifulsoup、scrapy),日志分析(常見elk)
原文鏈接:http://www.zhihu.com/question/47760443