[摘要]近年来数据驱动型岗位需求快速增长,统计建模是其核心技能之一。统计专业人才的培养不仅需要其掌握统计专业知识,还要注重编程能力,与实际需求紧密结合。
[关键词]数据驱动;编程;统计建模
[中图分类号]G642[文献标志码]A[文章编号]2096-0603(2020)27-0086-02
根据Careercast发布的最新报告,数据科学家(DataScientist)和统计师(Statistician)分别位列2019年工作排名的第一和第二位。两者的排名得益于大数据的发展以及与数据相关工作需求的快速增长。令人惊讶的是,“数据科学家”这一职位名称最先出现是在2009年,经过短短几年时间《哈佛商业评论》在2012年就称数据科学家是21世纪“最性感”的工作。事实上,Google的HalVarian在2009年称统计师将是21世纪最性感的工作。这两者在工作内容方面有重叠也有区别。对于统计学专业的学生来说,就业市场需求的持续增长是一个好消息,但也需要继续提升自身的竞争力[1]。
各行各业都在产生大量的数据,而这些数据正在成为有价值的资产。如医疗行业中辅助诊断,零售业中精准广告投放以及能源行业用户的用电预测等。从海量的数据中如何发现与提取有用的信息来辅助公司决策与发展?数据驱动型工作机会呈现爆炸式增长。统计分析与数学建模是这类工作的核心技能之一。然而,由于数据量多而且数据类型繁杂,有时并不能直接使用传统的统计模型。这就使经验丰富的数据分析人才成为稀缺资源。根据2014年针对大数据应用现状和趋势展开的调研,受访者最关注的大数据技术中,排在前三的分别是:数据分析(统计分析与数据挖掘等)、数据采集、数据处理。[2]与之对应的是统计专业知识与计算机编程能力。
2015年印发的《关于引导部分地方普通本科高校向应用型转变的指导意见》中,高等教育向应用型人才培养倾斜。应用型人才着眼于实践能力的培养,注重专业技术教育与实际工作需求相结合,符合我国现代化经济发展的客观需要。2019年2月教育部发布了《支持应用型本科高校发展有关工作情况》,指出:“推动项目高校将产教融合项目建设和学校转型深化改革相结合,切实把办学真正转到服务地方经济社会发展上来,转到产教融合校企合作上来,转到培养应用型、技术技能型人才上来。”在这个指导准则下,为提高统计专业学生的就业竞争力,应调整相应的教学方式,使学生在校内课堂所学与就业需求紧密衔接。[3]
一、课程设置
目前大多数院校开设了丰富的课程,包括概率论与数理统计、抽样调查理论与方法、试验设计与分析、统计模拟与计算、SPSS统计软件以及常用统计方法等。该系列课程既包括理论知识,也涉及实际应用,使学生在专业知识、实践技能两方面同时得到训练,也为以后从事数据驱动类技术工作打下坚实的基础。但在课程教学过程中,发现学生缺乏从实际数据中提取信息建模分析的能力,编程能力不足。美国统计学会于2014年发布了统计学本科专业的指导性教学纲要中指出,统计专业人才不仅需要扎实的数学和统计基础,还要有强大的统计计算和编程能力,可以熟练使用专业统计软件和数据库;实际数据是统计专业教育的重要组成部分。
在目前的课堂教学中,教师通常会以一组较为简单的数据来演示。在学生学习理论知识的初始阶段,这是必要也是学生容易接受的方式。在高年级阶段,在学生已经学习与掌握了大部分的統计课程之后,可以让学生分析相对复杂一些的数据集,甚至自行收集数据,从而完成数据收集、数据清理、数据分析、结果展示这样一个分析过程。在数据的选取方面,教师可以将一些数据比赛的公开数据作为数据源供学生选择,在课程进行过程中完成该数据的分析并且展示分析结果。同时鼓励学生尝试使用一些新的统计建模方法。另外,也有学校采取了校企合作的方式来教授学生应用技能。例如,斯坦福大学与Cloudera公司合作,由Cloudera公司开设大数据挖掘的课程供学生选修。
二、学习能力的培养
对于数据的科学分析,我们需要理论支持,也需要掌握分析的工具。在目前的课程中尽管已经开设了统计软件课程,包括R、SPSS等。前者需要一定的编程能力,这也是数据驱动型工作所需的。编程能力的培养与提升离不开大量的练习,这就需要学生能够投入一部分课余时间。新的软件也在不断涌现,如Python受到很多企业的欢迎。学生需要密切关注就业市场的需求,同时学校也可以组织一些比赛来促进学生积极学习。例如,北卡罗来纳州的学生利用美国邮政总局的数据,分析对垃圾邮件的响应率,找到提升效率的方法。或者参加一些数据竞赛,在短时间内通过高强度的学习完成比赛,一方面可以提高数据分析能力,另一方面也锻炼了自学能力。
在实际应用中,如何展示分析结果也是很重要的一步。这方面课程有SPSS统计软件应用、常用统计方法等。通过这些课程的学习能够进行数据的读取、描述性统计分析、统计建模等,输出多种形式的图表。在大数据背景下,数据的可视化是一个重要内容。例如,由于数据的实时更新,可视化图表也需要实时更新。R语言的ggplot2、shiny,Python语言的Pandas、Matplotlib都是可以实现数据操作、整合及可视化的工具库。近年来,可视化软件Tableau很受欢迎,有些公司在招聘广告中将其列为一个招聘的加分项。将数据可视化可以有效地帮助人们了解数据,用易于理解的图将有用的信息从纷繁的数据中传递出来。对于海量数据,可视化尤为重要。为提升学生这方面的能力,教师需要在课堂教学中适当强调这一点,可以通过具体的例子展示可视化的效果。建议学生选择一种软件系统地学习。大数据时代背景下很多新的数据类型和分析方法开始涌现。笔者在讲授应用多元统计分析时,鼓励学生分析文本数据,并用词频云图展示。学生学习的积极性很高,在课程结束时几乎每个小组的报告中都有这样的图。
大数据产业的发展使数据驱动类工作需求激增,但我们也需要认识到目前统计专业学生的知识储备及技能离实际的应用场景还有一定的差距。[4]真实而具体地展示实际数据的分析过程能够拓宽学生的思维模式,提高学生的应用能力。[5-6]加强统计软件的实验性教学,重视实践性教学环节,提高学生的编程、建模能力。这需要教师与学生共同努力。
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。