数据科学家修炼之道

来源:互联网 发布:灰姑娘网络语什么意思 编辑:程序博客网 时间:2024/06/10 08:41
   随着大数据时代的带来,数据科学家是一个非常热门的职业,然而要在任何方向做好,都需要花费太多的时间和精力。数据科学家是兼备数据工程师和统计分析师双重身份和技能的顶级数据工作者,在数据科学家成长的道路上,应该需要磨练那些技能呢?
    一、理论部分:统计学+机器学习(决定你未来能走多远)
    1、统计学天生就是和数据打交道的学科,专注于数据分析理论的研究,掌握好统计学的核心理论对数据科学家的成长非常重要。概率论与数理统计、回归分析、多元统计、时间序列、随机过程、抽样方法与技术、统计计算、非参数统计、统计学习与数据挖掘这些统计学的核心理论构成了机器学习理论的核心,从而也构成了数据分析的核心,一切机器学习的模型都可以看作统计学模型的延伸和拓展,都是基于统计学理论或者说背后往往有统计学的影子。统计学是介于数学和机器学习之间的一门核心科学,对数据分析来说显得尤为重要。
    2、机器学习作为统计学的延伸和拓展,构成了大数据分析的核心。掌握各种机器学习的方法,包括无监督学习:聚类分析、维度缩减、关联规则;有监督学习:分类问题(三种线性判别方法、Logistic回归、KNN、SVM、神经网络、决策树、boosting、bagging方法等)、回归问题(传统统计学方法)以及半监督学习等其他机器学习的方法,具备在前沿问题上架构机器学习系统的能力,对于数据科学家来说显得尤为重要。
    二、操作部分:计算机(决定你现在能走多快)
    1、数据库技术:熟悉SQL语言,能够进行复杂的数据查询和数据挖掘。
    2、编程能力:小型数据的EXCEL(vba)的熟练操作、精通R语言专门做统计分析和画图、精通Python做工程化的通用技术问题、熟练Matlab专门用于数学计算。同时要掌握C++和JAVA。
    3、大数据工具:熟悉Linux操作系统,因为很多大数据的框架都是在Linux操作系统下运行的;掌握Hadoop、Spark等大数据的软件构架非常重要,这是区分大数据分析与否的关键技能。
    4、数据可视化工具:通过R等其他的数据可视化工具,例如PPT等,将数据分析的结果呈现出来,对帮助决策非常重要。
   总结来说,我觉得最重要的数据分析软件是EXCEL、SQL、R、Python、Matlab、Hadoop。
    三、业务知识:相应行业、领域的知识(决定你朝什么方向走)
    具备数据科学家的基本技能以后,需要选择你感兴趣的行业。数据分析的开始是基于行业的业务知识提出的问题,而数据分析的目的和最终归宿都是为了解决业务问题,所以业务问题才是最顶层的东西,很多时候比数据分析本身更加的重要。具备商业思维和数据运营的能力,能够为管理层提出自己的一些架构性的想法而不只是解决问题,是对数据科学家更高层次的要求。
     具备上面三种能力以外,还有两个个方面可以帮助数据科学家更好的成长,一是学术研究,从事相应的研究工作并获得相应的研究成果,这对于数据科学家的理论功底是一个质的提高;二是实习竞赛经验,对数据的感觉需要从实践中不断培养,不断总结数据分析的经验,通过不断积累逐渐成长为一名优秀的数据科学家。成为一名数据科学家既需要高学历,同时需要大规模处理数据的经验,所以说这个职业要求是非常高的,在咨询类公司、互联网公司中前景非常好,薪酬也是顶级的。
     现实中很多人都是数据科学家的忽悠人士,所以对于真正有志于成为数据科学家的人来说,我的建议是踏踏实实从最基本的技能学起,不断积累自己的经验,而不是成为数据科学家界的忽悠和菜鸟!无论在哪里,无论是寒冬还是暖春,技术过硬的人才永远都是一面旗帜。
     未来属于做数据的年轻人,致现在和未来的数据科学家们!
0 0
原创粉丝点击