随着医学健康档案“电子化、信息化、数字化、智能化”的管理和医学研究资料的不断积累,医学信息大数据时代悄然开启。如何有效地利用这些海量信息为健康管理和健康决策提供支持,本文分析了大数据对统计学原理和方法提出的挑战,列出了在医学统计学课程教学中应该思考的一些问题。
所谓大数据(Big Data),是指具有4V特征且用目前的管理、处理技术手段难以进行有效管理和分析的数据。4V的含义是数据量大(Volume Big),数据量级扩大至PB以及ZB级别;数据产生、输入和处理快速化(Velocity Fast);数据结构和类型多样化(Variable Type)及数据价值密度低(Value LowDensity)。大数据的目的是将数据转化为知识,探索数据的产生机制和过程,进行预测和政策制定。随着医学健康档案“电子化、信息化、数字化、智能化”的管理,随着物联网在医学健康领域的应用,医疗、护理、康复、保健工作流程中产生的数据存储量呈指数增长。如何有效地利用这些海量信息为健康管理、临床治疗、医院决策及卫生政策制定提供支持,是大数据时代医学信息化带来的挑战。美国国家卫生研究院(NIH)为此特设立生物医学大数据研究中心及专项基金。在我国,科技部、国家自然科学基金委、国家社会科学基金委陆续酝酿和启动了“大数据的处理与应用”系列重大研究项目。
统计是一门数据科学,医学统计学是关于医学健康数据的收集、整理、分析和解释的方法论学科。“大数据”处理对统计学的发展提出了新的命题,如何将“医学信息大数据”处理技术融入相关统计学课程教学以促进现代医学信息分析技术的发展?本文做了相关的分析,并提出应该思考的一些问题。
一、大数据对统计学原理和方法提出的挑战
1.统计数据产生由“问题导向”到“数据驱动”
目前,统计数据的产生主要是基于所要研究的问题而主动进行的“数据收集”,落脚点在于如何获取数据。在大数据时代,海量数据随处可得,由数据驱动而进行问题研究将非常普遍。那么,获得数据的关键点不在于如何获得,而在于如何识别与选择。由“问题导向”产生的结构数据是经过严格抽样设计获取的,具有系统误差小、总体代表性好的优势,但是信息量有限,且数据获取周期长。大数据流环境下,海量数据中有价值的数据可能并不多,即数据的价值密度低,且难以避免和判断数据获取的误差和偏倚。在很多情况下,统计数据不需进行抽取,而是“数据样本即总体”;同时,也要研究如何从源源不断的数据中抽取足以满足统计目的和精度的样本,这需要研究新的序贯性和动态性的抽样方法。
2.数据格式和结构复杂多样化
目前统计数据都是结构化数据,如疾病空间分布和时间序列数据等,可使用二维表格表示,可以方便地被常规统计软件读取和进行分析。在大数据背景下,除少量数据具有结构化特征外,更多的是半结构和非结构化数据,如各种格式的文档、图片、网页、图像、音频和视频等。目前,这些半结构和非结构化的大数据仅能做到初步的实时业务应用。如在研究气候变化与人类健康相关的命题时,需要处理庞大的气象数据,而80%以上的气象数据均为非结构化的大数据,如何将这些非结构化的大数据做到降维、分解和长时间序列储存无疑是统计学面临的新命题。
3.大数据的整合及跨库分析方法亟待建立
传统上,数据集的合并和拆分都是利用关系数据库技术,如共同的编码或关键字进行操作。在大数据环境,很多数据集不再有标识个体的关键字,关系数据库链接方法不再适用,需要探讨利用数据库之间的重叠项目来结合不用的数据库。此外,还可以改变分析思路,如直接利用局部数据进行推断,然后整合这些数据集的统计结论。
4.大数据对于统计学核心理论的冲击
一个新生事物的出现将必定导致传统理论和技术的变革。大数据对传统统计学原理和方法的冲击是划时代的。传统的统计学方法和理论立足于应用抽样技术在总体中抽取小样本进行分析,通过样本统计量推断总体的参数和性质。在大数据背景下,我们更关心的不是数据量的大小,而是数据所蕴含的信息量及信息的识别和选择。因此,大数据的预处理如数据清洗、纠偏完全跳出了传统小样本研究的范畴。同时,大数据充满了各种随机的、非随机的误差和偏倚,很难满足小样本数据精度和分布的要求。在大数据时代,需要进一步拓展统计思维,丰富现有统计学的理论和方法,赋予统计学新的生命力。
二、在大数据时代对统计学教学的几点思考
《“十二五”时期统计发展和改革规划纲要》中明确提出,“建立现代统计体系就是建立以现代信息技术为支撑的统计系统”。
www.zikaoonline.com
根据这个纲要,计算机技术、互联网系统、多媒体等现代信息技术在统计技术中将发挥更重要的作用。在医学信息大数据时代背景下,医学统计学教育是否能够与时俱进,迎接大数据带来的机遇与挑战?为此,笔者谈几点思考:1.补充和加强数学基础和计算机应用课程
在大数据背景的冲击下,统计学教育首先要面临两大冲击。一是大数据背景下的统计模型将会跳出原有的传统统计模型框架,需要更广泛的学习一些数学概念,如拓扑、几何和随机场,这些数学知识将会在庞大数据分析的背景下扮演重要的角色。二是算法和计算机上的实现是传统教育面对的更大挑战,大数据环境下的数据是海量的,同时又是结构化、半结构化、非结构化的混合数据,处理这些技术需要先进的计算机技术平台。在大数据和信息化的时代背景下,在目前医学生的通识教育中,是否应该加强数学基础及计算机应用等相关课程的教育?值得思考。
2.渗透大数据基本知识和统计思维
统计思维的培养,是提高学生处理数据和运用数据分析实际问题能力的重要一环。在大数据时代,并非所有的医学健康问题都通过大数据方式去处理,基于小样本的分析仍然是最基本和最有效的实现方式。因此,传统统计学基础和原理仍然为医学统计学教育的核心和重点。与此同时,结合大数据技术的特点,对统计学的基本知识进行拓展教育,有计划地将大数据的统计分析思维渗透在教学工作中。将大数据的基础知识,如数据来源、数据结构和格式、收集和筛选,在教学中进行适当补充。引导学生将已有的统计学基本原理和方法运用到大数据处理中。
3.扩充实验教学内容,夯实基本软件操作
统计学是一门处理数据的方法学科,重在应用。因此,在系统统计原理教学的基础上,更加侧重实践性和应用性的训练。在目前的统计学教学中,学生普遍比较缺乏的不能将医学实际问题正确的转化为统计学问题,不能根据资料根据资料的设计类型、性质和分析目的灵活选用合适的统计分析方法。通过综合性的实际案例,将医学科研中的实际问题纳入教学,使学生虚拟的置身于科研一线,去感受和完成科学研究中的统计学应用。大数据时代,数据、资料的产生方式发生了很大变化,因此,需要增加部分大数据方面的数据、资料收集和整理方法的训练内容。大数据背景下,数据中除了一些结构性数据外,更多的是半结构和非结构化数据,很难用传统的二维数据表显示方式予以直观化。因此,除了目前常用的统计图、统计表外,还应该逐步补充一些比较复杂的数据透视化技术方面的教学,如探索性可视化描述工具、Tableau、TIBCO和QlinkView以及叙事可视化工具等。
在大数据时代,在统计学的教与学中,不应要求死记有关概念、定理和计算公式,而应加强统计学基础性原理与知识的教学,凸出统计学理论与方法的应用性,建立起大数据统计思维。学习统计学是为了应用和解决实际问题。对教师来说,教好医学统计学的标志是教会学生运用统计思维思考问题和选择合适的统计方法解决实际健康决策及健康管理问题。对学生来说,学好统计学的标志是建立统计思维,能够以问题为导向,在统计思想的引导下,选择合适或最优的统计方法,或者通过创新统计方法,有效地解决实际问题。
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。