一致性检验中Kappa系数的计算及应用
2013-11-21 MedSci MedSci原创
Kappa一致性相关分析中经常应用的Kappa系数有三种,即简单Kappa系数,加权Kappa系数和总Kappa系数及标准误和检验统计量的计算公式,并针对Kappa系数仅适用于行数和列数相等的方表的问题,给出了用SPSS软件实现对行列数不等资料的Kappa检验方法。 1简单Kappa系数的计算公式[1] K=P0-Pe1-Pe 其中P0=∑ipii,称为观测一致率,Pe=∑i
Kappa一致性相关分析中经常应用的Kappa系数有三种,即简单Kappa系数,加权Kappa系数和总Kappa系数及标准误和检验统计量的计算公式,并针对Kappa系数仅适用于行数和列数相等的方表的问题,给出了用SPSS软件实现对行列数不等资料的Kappa检验方法。
1简单Kappa系数的计算公式[1]
K=P0-Pe1-Pe
其中P0=∑ipii,称为观测一致率,Pe=∑ipi.pi,称为期望一致率,即两次检验结果由于偶然机会所造成的一致率,其中pi.=RiN,pi=CiN,Ri,Ci分别为第i个格点所对的行合计和列合计,N为总例数。当两个诊断完全一致时,P0=1,此时Kappa值为1。当观测一致率大于期望一致率时,Kappa值为正数,且Kappa值越大,说明一致性越好。当观察一致率小于期望一致率时,Kappa值为负数,这种情况一般来说比较少见。根据边缘概率的计算,Kappa值的范围值应在-1~1之间。Kappa≥075两者一致性较好;0.75Kappa≥0.4两者一致性一般;Kapp.4两者一致性较差。
Kappa系数标准误的计算公式为:
S=Pe+P2e-∑ipi.piN
其95%的置信区间为:
由于Kappa值是一个样本统计量,作是否有统计学意义的假设检验时,应选用统计量:
U=KappaS
2加权的Kappa系数[2]
加权的Kappa系数是简单Kappa系数的推广,是用加权的方法对两个评价结果进行量化。对于四格表来说,简单Kappa系数与加权的Kappa系数是相等的,对于一般的行列表,加权的Kappa系数的计算公式为:
Kw=P0-Pe1-Pe
P0=∑i∑jwijpij
Pe=∑i∑jwijpi.pj
其中0≤wij=wji1,i≠j,wij=1。
加权Kappa系数的标准误计算公式为:
Skw=∑i∑jpi.pj[wij-]2-P2e)2N
95%的置信区间为:
假设检验的统计量为U=kWSkw
Kappa的权系数一般使用CicchettiAllison和FleissCohen两种权值类型[2],Cicchetti Allison的计算公式为:
wij=1- Ci-Cj Ck-Ci
FleissCohen的计算公式为:
wij=1-22
其中,Ci表示第i列的评价分值,k表示列数。假如是数值型变量,评价分值Cij就是第i行第j列对应的具体数值;假如是分类变量,可按照相应级别进行赋值。由于wij=1,而当i≠j时,0≤wij1,所以由Kappa系数的计算公式可知加权的Kappa系数大于简单Kappa系数。
3总Kappa系数
假设列联表为多向列联表,且每个变量有两个水平,即为2×2×…×2列联表,令ki表示第i个变量的Kappa系数,Ski表示第i个Kappa系数的标准误,则总Kappa系数的计算公式为:
K总=∑qi=1kiSki/∑qi=11Ski
若要检验各变量Kappa系数是否都相等,可采用自由度为q-1的χ2检验,计算公式为:
χ2=∑qi=12Ski
、两个公式均适用于加权的Kappa系数。
4行列数不等时Kappa系数的计算
Kappa系数的计算适用于两个评价人分级水平数相同的情况,即数据格式为行数和列数相等的方表。而在实际操作中,经常会出现分级水平数不一致,即行列数不等的情况。我们来看一个实例:两名医生按照某项指标的1~4个等级来评价8个病人。一个医生用全部4个等级进行评价,而另一医生只有3个等级进行评价。此时,对于两个医生来说,他们评价的级别范围不同。数据见表1。
表1甲乙两医生对病人的评价
下面我们使用SPPS软件获得Kappa值及检验结果。SPSS110或更低的版本在这种情况下均无获得Kappa统计量。SPSS115以上的版本可以计算出Kappa值。首先进入数据编辑器并给甲医生添加额外的观测值0001。数据录入见图1。选择Analyze→DescriptiveStatistics→Crosstabs,将变量甲,乙分别放入对应的行列框内,选择Statistics按钮,得到如下对话框,选择Kappa复选框,按continue即可输出Kappa值、标准误和P值。
相应的结果为:
Kappa=0.810,P=0.001,S=0.176。
5讨论
在诊断试验的研究中,数据资料多为双向有序的列联表资料,即两个变量都是有序变量,而且属性相同。属性相同分为三种情况,一种情况是属性、分级水平数和分级水平都完全相同。如甲医生和乙医生都把病人的检查结果分为1、2、3、4四个等级。此时可直接作Kappa检验。当这两个变量都只有2个水平时,就成为配对设计的四格表资料,可使用配对χ2检验,即McNemar检验。第二种是属性相同的分级水平数相同,但分级水平不全相同。如甲医生和乙医生都把病人的检查结果分为四个等级,但甲医生的分级为1、2、3、4,而乙医生的分级为2、3、4、5。在这种情况下,由于列联表的行数和列数仍然是一致的,即列联表仍为方表,所以也可计算出相应的Kappa统计量。第三种是属性相同,但分级水平数和分级水平不全相同。这种情况就是我们所说的列联表的行列数不一致。由于收集上来的数据不能轻易删除掉,所以我们考虑添加行或列使联表成为方表。如行数为n,例数为n-1,则我们只需要添加第n列,在第n行第n列的格点中添加权值0001,而第n行的其它格点均设为0,就可以命名其成为方表,并计算Kappa统计量了。由于权值系数很小,所以不会影响Kappa值的计算结果。
另一方面,假如两个变量中有一个变量是金标准,那么我们不但能分析出检验结果的一致性,还可以计算出敏感度、特异度、误诊率和漏诊率等指标。假如有不同的诊断分界点,还可以绘制出ROC曲线。
诊断试验的评价[3]在医学研究中具有十分重要的意义,目前大多数文献都使用Kappa统计量来检验结果的一致性。所以本研究主要是对Kappa系数作一个探讨和分析。诊断试验评价的统计学方法还会随着更多问题的提出和解决而不断得到发展、修正和扩展。
误用Kappa检验举例
例:严艳等[3]的结果及结论如下:
“2. HEV RNA检测结果与血清抗-HEV IgM检测结果比较(表1):”
表1 实时荧光RT-PCR方法与血清抗-HEV IgM检测
434例戊型肝炎结果比较(例)
HEV RNA检测 |
抗-HEV IgM检测 |
合计 |
|
阳性 |
阴性 |
||
阳性 |
227 |
5 |
232 |
阴性 |
138 |
64 |
202 |
合计 |
365 |
69 |
434 |
注:荧光PCR方法与血清抗-HEV IgM检测比较
差异具有统计学意义(Kappa =0.308,P =0.000)。
“荧光PCR方法与血清抗-HEV IgM检测比较差异具有统计学意义(Kappa =0.308,P =0.000)。提示2种检测方法存在明显差异。”错误辨析:研究者误用了统计分析方法。
研究者提供的是一个配对设计的双向有序2×2表,此类资料进行Kappa检验时推断的是两种检测方法间的一致性,关注的是两法结果相同的左上和右下两个方格内的例数;而进行McNemar χ2检验时推断的才是两种检测方法间结果的差异是否具有统计学意义,关注的是两法结果不同的右上和左下两个方格内的例数。
研究者进行的Kappa检验其分析结论为:两法间存在正向一致性(P =0.000),一致性程度不理想(Kappa <0.4)。
而“提示2种检测方法存在明显差异。”的结论是对资料进行McNemar χ2检验得到的。其结论是:荧光PCR方法与血清抗-HEV IgM检测比较差异具有统计学意义(McNemar χ2 =121.846,P =0.000),血清抗-HEV IgM检测的阳性率(84.10%)高于荧光PCR方法的阳性率(53.46%)。
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#一致性#
69