心理学研究多通过观察、实验和测验等收集数据。数据存在不同程度的缺省,这在实际应用中非常普遍。缺失数据是指未能取得所要搜集资料的一种现象,其有多种术语,诸如无回答(nonresponse)、缺失数据(missingdata)、不完全数据(incompletedata)与无访问(noninterview)。本文主要采用“缺失数据”。无论是等距变量或比率变量,均需以数值形式参检验,甚至推断与模型建立。缺失数值会导致有偏参数估计、甚至效度降低,这正是面临的严重问题,研究正实不同处理方法对统计结果影响很大。
常用处理方法是删除含资料缺失的记录,后将剩余视为完全数据。这样可能产生偏倚,甚至误导性的结论。另有两大类方法,借补法在先用一个借补值替代缺失值,得到“完全数据”后运用标准完全数据分析方法,其经历两个发展阶段:单一借补、多重借补。前者包括极大似然估计的方法,后者由前者发展而来。第二类是不处理,直接分析数据。
一、数据缺失的程度与机制
数据缺失的程度、机制均影响处理方法的选择。方法不适当也会带来有偏的参数估计M1、方差估计与统计检验,甚至影响数据分析效用。
(一)数据缺失的程度
借助某一变量上数据缺失的比率X描述数据缺失的程度。缺失比率X如何应用方面,当X<10%时应当保留这些贼并对其哳搬的舰曾建议,当X>15%时可以考虑删除采用删除法;MRaymond与Roberts则认为X>40%时才考虑删除这些数据。
(二)缺失机制
缺失数据与诸多变量等相关,处理方法的性质依赖这些相依关系的特征。为论述方便,记全部变量Y观测值中那些完整的变量为Yobs、不完整的为Ymis。如果缺失值与Y相互独立无关,则缺失数据为完全随机缺失(MACR,missingcompletelyatrandom)的,是特殊情形。此时缺失值是总体的一个简单随机抽样。如果缺失值仅与Yobs相关联、与Ymis相互独立,则是随机缺失(MAR,missingatrandom)。如果Yobs与Ymis之间存在着依赖关系,则称非随机缺失(NMAR,notmissingatrandom),是不可忽略的。
二、单一借补
单一借补用一个借补值替代全部缺失值,后用完全数据方法分析数据。单一借补是缺失数据处理中最通用方法之一,有多种方法。
(一)推理借补与最近邻借补
根据已有信息推断缺失数值,该方法简单易行,可提供准确借补值,或者近似准确借补值,同等情况下可优先进行推理借补。例,信息收集时已提供有姐弟信息的某被试“独生子女”一项空着,可推断为“否”。最近邻借补选用与缺失数据提供者相类似的被试数据替代该缺失值。按照匹配变量找到一个以缺失数据提供者类似的被试时,可还用例如欧式距离等来度量类似程度。
(二)均值借法
均值借补用已得数据的均值替代全部缺失值。借补值易均值形成尖峰,严重扭曲数据分布。当数据缺失非MACR时,将低估统计量方差,导致参数估计偏差,且不适用需方差的复杂分析。
(三)回归借补
回归借补可分为线性回归借补,非参数回归借补等。本文主要关注线性回归借补,用Yk关于数据完全的变量回归模型,回归值替代缺失值。建立回归方程时有一次或多次迭代之分。多次迭代中,预测变量以逐步进人模型,获得预测力最佳、最精简的变量组合;回归值替代缺失值,后建立新模型;如此,至回归系数变化不显著。是类别变量时,则考虑进行变换,进行线性回归。同时,我们还应注意到利用严格的回归方程进行预测,易人为增大变量之间的关系。多数情况下,教育学、心理学讨论的变量大多都不是相互独立的。选择该方法时,须考虑当预测变量与变量Y是否存在高度的相关关系。其构造借补值的逻辑清晰,相对客观。该方法能得到合乎逻辑的结果,尤其满足正态分布时。数据模拟实验表明,方法加精确。
三、多重借补
多重借补(multipleimputation,MI)基于缺失值的预测分布或统计模型的方法:提供多个借补值依次替代各个缺失值、构造个“完全数据”,121,191211后运用完全数据统计方法分别分析多个数据集;分别得到数个分析结果,拟合这多个结果,获得对缺失值的估计等,甚至是置信区间、P值。MI具备例如连续性的优良统计性质。
(一)回归预测法与倾向得分法
回归借补基于已有数据建立回归模型、嵌入借补值。先确定观察协变量,倾向得分法赋予一个条件概率。即对各Y产生一个观测值缺失概率,并以倾向得分表示。依据倾向得分对数据分组,组内进行近似贝叶斯Bootstrap(ABB)借补。
(二)似然的方法
1.极大似然估计
从理论上来看,极大似然法(MaximumLikelihood,ML)至今仍是参数点估计中的重要方法。既定模型下缺失值的诸多估计均可基于似然函数进行。ML利用总体数量特征的分布函数等,建立未知参数的估计量。将Y作为未知变量0,构造关于e的似然函数,后求的参数的极大似然估计量,甚至在参数空间内的置信区间,或者置信区域。
参数极大似然估计量(MLE)具有不变性,推广至多元变量时该优良性质亦成立。这恰能满足实际研究需要。基于其渐进最优性质等,ML成为参数估计的常用方法,诸如SPSS10.0、LISREL8.7等软件包均收人该方法。
2.期望极大化算法
期望极大化算法(Expectation-Maximizationalgorithm,EM)是ML有效方法,主要用来计算基于不完全数据的MLE15。当由于观测过程局限带来数据部分缺失时,或似然估计因似然函数不是解析函数而无效时可选用该方法。EM是一种迭代算法,每次迭代似然函数值都将有所增加,进而保证参数估计值收敛到一个局部极大值。此外,EM可自动实现参数约束。基于软件数据模拟表明X<30%时EM算法可得到比较好的结果。
方法
当缺失值分散在多个变量时,回归法基于对回归系数的估计获得借补值。复杂缺失模型中,回归系数的估算又依赖于借补值。这里似乎存在某种循环论证痕迹。此时,可考虑迭代法中马尔科夫蒙特卡洛方法(MarkovChainMonteCarloAlgorithm,MCMC)。MCMC利用马尔可夫链进行蒙特卡洛积分,可基于无后效性随机过程探讨数量关系、预测变量,还可有包括0出1?抽样等多种具体算法。基于多元抽样MCMC有诸多优点,足够长的时间使得雅过程驗时,MCMC可得卿常麵的结果。171MCMC是与具体的模型结合的,自身有不少扩展方法,且不同MCMC方法对缺失数据的参数估计之间存在差异。不过,X<30%时MCMC方法得到结果与完全数据时拟和较好。这些研究支持MCMC是处理缺失数据的有效方法,软件包SPSS17.0等均收人该方法。
四、不处理
借补值是缺失数据的主观估计值。引人的主观值可能改变原信息系统,甚至带进新噪音、导致分析错误。不处理确保了原有信息不变,并进行分析,其主要包含贝叶斯网与人工神经网络。不过,后者的具体应用仍有限、待进一步探索与实证。研究开始关注神经网络在心理学中的具体应用。
(一)贝叶斯网
贝叶斯网络(BayesianNetworks)是一个有向无圈图,W能描述不确定性因果关联的模型。该有向无圈图带有概率注解,能够表示随机变量的因果关系与概率关系,网络的拓扑结构能够表明如何从局部的概率分布获得完全的联合概率分布。分析缺失数据时,贝叶斯网将结合先验知识与样本数据对数值计算进行推理,得到最佳值。其最大程度利用数据蕴含的信息,是具有鲁棒性的方法。
缺失数据下学习贝叶斯网有各类算法,不少算法是通过对含缺失数据的信息系统完备化得到所需统计因子,最终将问题转化为完全数据下学习贝叶斯的网的问题。例如,结构EM(StructureEMAlgorithm)通过EM算法获得期望统计因子。数据非随机缺失可以通过引人隐藏变量转化为随机缺失问题,m似乎可以仅讨论随机缺失情况下算法。随着研究的推进,新的、优良的算法相继涌现,并得到模拟实验的支持。例如,数据缺失下贝叶斯网络增量学习算法IBN-M。甚至稳健的贝叶斯方法能够适用于含缺失数据的结构方程分析中,此时的结构方程模型选择固定方差。
建构贝叶斯网可由专家人工建构。其中,因果关系、网络结构是不可或缺的。这需对分析领域有相应了解,至少对变量间关系较清楚。在心理学等领域中应用尚待深入研究,该方法运用前景令人期待。
(二)贝叶斯网适用软件能够实现贝叶斯网的软件包不少。Netica是最重要软件之一,可免费下载功能有限的版本。专门进行数值计算的语言Matlab,其编程量较少、调试程序方便、呈现学习所得结构也不繁琐,国内文献也更多地涉及Matlab。BNTtolkit是基于Matlab开发的,提供不少基础函数库,能够进行参数学习与结构学习,且完全免费。缺乏图形用户界面、无法将基本函数集成相应系统是其“硬伤”。
五、结论与讨论
实际应用中,删法“浪费”不少数据,统计力低下,尽量选用其它方法。当满足MAR缺失机制且人在10%时,对删法可运用对有多个项目的量表的数据处理。当满足MAR、变量相关联,可考虑均值借补。当变量之间高相关且X>20%Ht,可考虑回归借补。
当变量多维正态分布时,可考虑稳健性较好的ML或EM。X在一定范围内时,基于似然的方法可获得良好的估计值。114121]变量间关系复杂时可考虑MCMC,入<30%时该方法所得结果与完全数据时的一样好,其可有效处理缺失数据。贝叶斯网是不确定性表达与推理最有效模型之一,缺失数据下的贝叶斯网络学习得到理论与实证支持。M71具备编程等条件时,可选用贝叶斯方法。
周伟
(漳州师范学院,福建漳州363000)
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。