还在迷茫?点进来马上get→从零开始学数据分析最佳路线!

2021-07-30 03:43:41

俗话说读万卷书,行万里路.不如阅人无数,阅人无数不如名师指路.可见一个好的导师是多么的重要,选择正确的路线,就能避免走许多弯路,

让自己站在巨人的肩膀上去学习,事半功倍.这里边罗列了最佳学习路线,供大家参考.

基本上就是这些:

★看在线互动教程、打代码，了解R的最基本的东西，大概能做哪些事情（比如计算一些线性回归），自己根据这些教程去做各种变化，做许多实验，探索一下这个语言的基本语法和构造。

★看一些入门书籍，比如 Introductory Time Series with R等等，给你展示怎样用R来比较完整地解决一个问题。可以根据你的领域选择类似的书籍。

★开始用R解决一些统计、计量相关的计算性问题，比如用自己的数据跑一些模型，探索这些数据里面可能有趣的东西。

★在数据较为复杂一些的项目中使用R，发现数据操作能力太弱，开始接触更深层的R概念，比如可以看 Data Manipulation With R (Phil Spector)，形成更加系统的概念，逐渐掌握操作复杂一些的数据和对象的能力。

★学习最流行的R扩展包的使用方法，发现整理数据和建模中的许多工作都大幅简化，工作效率出现质的提升。

★逐渐开始做更为复杂的项目，形成一整套数据处理、建模的技术和技巧，形成较为系统、完整的认识和知识结构，有较强的社区检索能力，遇到问题能够自行解决或者通过社区解决。

★阅读进阶的书籍，例如 Hadley 的 Advanced R Programming，对R的底层和开发有了更加深刻和全面的认识，形成了使用R的基本直觉。

★参与到开源社区，不断跟进最新的发展和技术。

★参与到R会议，结交更多的朋友，交流使用经验，进一步提升视野和能力。

当然如果按照职业岗位的划分,就是这个样子:

1. 第一阶段(一般叫数据分析专员)

基本学会excel(VBA最好学会;会做透视表;熟练用筛选、排序、公式)，做好PPT。这样很多传统公司的数据专员已经可以做了

2. 第二阶段(数据专员~数据分析师)

这一阶段要会SQL，懂业务，加上第一阶段的那些东西。大多数传统公司和互联网小运营、产品团队够用了。

3. 第三阶段(数据分析师)

统计学熟练(回归、假设检验、时间序列、简单蒙特卡罗)，可视化，PPT和excel一定要溜。这些技术就够了，能应付大多数传统公司业务和互联网业务。

4. 第四阶段(分裂)

数据分析师(数据科学家)、BI等：这部分一般是精进统计学，熟悉业务，机器学习会使用(调参+选模型+优化)，取数、ETL、可视化啥的都是基本姿态。

可视化工程师：这部分国内比较少，其实偏重前端，会high charts，d3.js, echarts.js。技术发展路线可以独立，不在这四阶段，可能前端转行更好。

ETL工程师：顾名思义，做ETL的。

大数据工程师：熟悉大数据技术，hadoop系二代。

数据工程师(一部分和数据挖掘工程师重合)：机器学习精通级别(往往是几种，不用担心不是全部，和数据分析师侧重点不同，更需要了解组合模型，理论基础)，会组合模型形成数据产品;计算机基本知识(包括linux知识、软件工程等);各类数据库(RDBMS、NoSQL(4大类))

数据挖掘：和上基本相同。

爬虫工程师：顾名思义，最好http协议、tcp/ip协议熟悉。技术发展路线可以独立，不在这四阶段。

往数据发展的基本学习路径可以概括为以下内容：

1. EXCEL、PPT(必须精通)

数据工作者的基本姿态，话说本人技术并不是很好，但是起码会操作;要会大胆秀自己，和业务部门交流需求，展示分析结果。技术上回VBA和数据透视就到顶了。

2. 数据库类(必须学)

初级只要会RDBMS就行了，看公司用哪个，用哪个学哪个。没进公司就学MySQL吧。

NoSQL可以在之后和统计学啥的一起学。基本的NoSQL血MongoDB和Redis(缓存，严格意义上不算数据库)，然后(选学)可以了解各类NoSQL，基于图的数据库Neo4j，基于Column的数据库BigTable，基于key-value的数据库redis/cassendra，基于collection的数据库MongoDB。

3. 统计学(必须学)

如果要学统计学，重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。这些个用的比较多。也有学时间序列、bootstrap、非参之类的，这个看自己的意愿。

其他数学知识：线性代数常用(是很多后面的基础)，微积分不常用，动力系统、傅里叶分析看自己想进的行业了。

4. 机器学习(数据分析师要求会选、用、调)

常用的是几个线性分类器、聚类、回归、随机森林、贝叶斯;不常用的也稍微了解一下;深度学习视情况学习。

5. 大数据(选学，有公司要求的话会用即可，不要求会搭环境)

hadoop基础，包括hdfs、map-reduce、hive之类;后面接触spark和storm再说了。

6. 文本类(选学，有公司要求的话会用即可)

这部分不熟，基本要知道次感化、分词、情感分析啥的。

7. 工具类

语言：非大数据类R、Python最多(比较geek的也有用julia的，不差钱和某些公司要求的用SAS、Matlab);大数据可能还会用到scala和java。

可视化(选学)：tableau、http://plot.ly、d3.js、echarts.js，R里面的ggplot、ggvis，Python里的bokeh、matplotlib、seaborn都不错

数据库语言：看你自己用啥学啥

其他框架、类库(选学)：爬虫(requests、beautifulsoup、scrapy)，日志分析(常见elk)