运用复杂抽样分析模型对多阶段随机抽样资料分析的流行病学原理
2014-05-05 MedSci MedSci原创
多阶段抽样也称多级抽样、多阶抽样、套抽样,是在抽取样本时,分为两个或两个以上的阶段从总体中抽取样本的一种抽样调查方法,属于复杂抽样的一种。随着复杂抽样技术尤其是多阶段抽样在大型流行病学现况调查中不断推广应用,针对其所得样本,即复杂样本的统计分析方法也日益受到关注。目前适用的统计分析方法大致分为两类:一是随机化推断模式[1];二是基于模型的分析模式[2]。尽管国内大型的多阶段抽样调查比比皆是
多阶段抽样也称多级抽样、多阶抽样、套抽样,是在抽取样本时,分为两个或两个以上的阶段从总体中抽取样本的一种抽样调查方法,属于复杂抽样的一种。随着复杂抽样技术尤其是多阶段抽样在大型流行病学现况调查中不断推广应用,针对其所得样本,即复杂样本的统计分析方法也日益受到关注。目前适用的统计分析方法大致分为两类:一是随机化推断模式[1];二是基于模型的分析模式[2]。尽管国内大型的多阶段抽样调查比比皆是,然而,对调查研究所得资料的分析仍然沿用传统的统计分析方法[3-5]。 事实上,对于多阶段抽样调查资料如果采用传统的分析方法,所得参数估计的误差偏小,估计的可信区间偏窄,导致区间覆盖率降低。大量的统计学模拟研究结果表 明,当样本量含量足够大时,复杂样本的数据结构并不会影响到总体均数、比值以及回归系数等一阶总体参数的点估计,但可以影响总体参数估计的准确度和精度, 即误差,从而影响统计推断的结论;而当群数或者群含量不够大时,点估计和区间估计皆受到影响。为此,本文通过实例分析,比较复杂抽样分析模型与简单抽样分 析模型的估计结果,揭示其与传统方法之间的差异,进一步说明传统方法在处理复杂样本时的不合理性。
多阶段抽样的原理
抽样调查是医学科研工作尤其是流行病学研究中常用的调查方法,所抽取的样本对总体的代表性的好坏直接关系到结果的可信程度。基本的抽样方法如单纯随机抽样、系统抽样、分层抽样、整群抽样等各有优缺点[6, 7],在大规模流行病学抽样调查中经常几种方法联合使用[8],以使得抽样结果能够较好地代表实际总体的情况。多阶段 抽样是指将抽样过程分阶段进行,分为两个及以上的阶段并随机抽取样本的一种抽样调查方法。多阶段抽样适用于抽样调查涉及范围广,抽样框不明确,或总体范围 太大,无法直接抽取样本等情况,这种方法在多城市定量研究项目中相对常见。多阶段抽样过程大致分为两个步骤:第一,先将总体各单位按一定标志分成若干个群 作为抽样的一级单位,依照随机原则,从第一级单位中抽取若干一级单位入样。第二,将被抽取的第一级单位分成若干个群作为抽样的二级单位,随机抽选若干个二 级抽样单位入样,以此类推直至抽到目标样本单位。例如,中国心血管健康多中心合作研究[8]采用了多阶段随机抽样方法抽取了具有全 国代表性的样本,具体方法如下:首先在中国分别从北部与南部地区各抽取5个省市,所选出的省和地区应在地理位置和经济上具有各自的代表性。第二阶段的抽样 为随机抽样,从所选出的省中(包括北京、上海经济区)随机抽取1个县和1个城区,总共抽取10个县和10个城区。第三阶段,从每1个县和城区中随机抽取1 个街道和1个镇(村)。最后在所选取的街道和镇中随机抽取年龄在35~ 74岁间的个体作为研究对象。如表1所示,所抽取研究对象的年龄、性别构成与1990年全国人口构成相比,无明显差别,可见,该样本具有很好的代表性。该 调查中所采用的多阶段整群随机抽样方法综合运用了几种基本抽样方法,它既利用了分层法抽样误差小、整群法简单易行的优点,又避免了整群法抽样误差大的缺 点,使各种方法相互补充,扬长避短。
多阶段随机抽样虽然很好的解决了样本代表性的问题,在随机抽取最小单位研究人群时,难免会出现选择性偏倚。比如说,某一社区居住的居民大多为老年人,那么 如果抽到了这个社区,将会使样本平均年龄偏高。那么我们在分析通过多阶段抽样得来的大样本资料时,就不能运用传统的简单随机抽样模型进行分析,而应该采用 复杂抽样模型进行分析[9]。目前,复杂抽样模型尚未被普遍运用,原因就在于多阶段抽样的运用就是为了解决样本代表性的问题,既然如此,为什么还要在分析过程中运用复杂抽样模型来进行校正呢?下面,我们将运用实例来对此进行解释。
表1中国心血管健康多中心合作研究调查人群年龄构成比
年龄段(岁) |
1990年(%) |
|
抽取对象(%) |
||
男性 |
女性 |
|
男性 |
女性 |
|
35~ 44 |
38.53 |
39.62 |
|
41.36 |
40.83 |
45~ 54 |
27.31 |
27.54 |
|
26.47 |
25.45 |
55~ 64 |
21.68 |
21.80 |
|
19.27 |
20.58 |
65~ 74 |
12.48 |
11.04 |
|
11.22 |
13.14 |
实例分析
2010年3月-5月,我们在金阊区开展了由苏州科技项目支持的“金阊区高血压干预研究”,运用多阶段整群随机抽样的方法,抽取全区城区、农村和城乡结合部共5个社区(分别包含2、2、1个社区),每个社区随机抽取1个小区,共调查了3061例35岁及以上研究对象。
抽样调查的特征变量:分层变量(strata, 城区、农村和城乡结合部),初级抽样单位变量(社区),末级抽样单位(小区)。
抽样结果:如表2所示,双虹小区平均年龄明显偏高,而新渔村年龄明显偏低;男性所占比重在各个小区中也存在差异。可见,多阶段整群抽样得到的数据是非独立 样本,因为群内的研究个体间的相似程度比群间研究个体更为密切,那么,如果在分析过程中没有考虑到整群特征将会导致统计推断的偏差,即增加了犯一类错误的 概率,不能够得出准确的估计[10-14]。为了降低选择性偏倚所造成的推断误差,在分析阶段就需要运用复杂抽样分析模型,而不能像目前大多研究那样,运用简单抽样模型来进行分析。
表2各小区调查对象的年龄和性别构成
特征 |
城区 |
|
农村 |
|
城乡结合部 |
合计 |
||
双虹小区 |
阳光城 |
|
张网村 |
新渔村 |
|
茶花小区 |
||
年龄,岁 |
62.11(10.71) |
54.29(9.27) |
|
53.38(10.68) |
50.13(8.08) |
|
55.13(11.31) |
54.23(10.50) |
男性,% |
35.49 |
36.78 |
|
41.21 |
39.94 |
|
37.41 |
38.35 |
高血压患病率估计:分别用复杂抽样模型和简单抽样模型对样本资料进行分析,估计金阊区35岁及以上居民高血压的患病率及其95%可信区间,结果见表3。复 杂抽样模型对总体高血压患病率的点估计值较简单抽样模型高,但两者的95%可信区间存在重叠区域,认为这两者模型对金阊区居民高血压患病率的估计无显著性 差异。尽管如此,复杂抽样模型计算的结果更为可信,因为此模型纳入了各个群体的抽样权重,即考虑到了群内个体的相似性,也叫“窝别效应”[15]。 而简单抽样模型认为该资料是一个简单随机抽样得来的数据,即各个群体被抽到的概率是均等的,这与实际情况是不一致的。在此次调查中,双虹社区和阳光城社区 被抽到的概率为2/32=0.0625,张网村和新渔村被抽到的概率为2/11=0.1818,茶花社区被抽到的概率为1/8=0.125,可见,该调查 资料不满足运用简单抽样分析模型的条件,因此,如果运用简单抽样模型来进行分析得到的结果是不准确的。
表3两种分析模型对金阊区高血压患病率估计得比较
模型 |
金阊区居民高血压患病率(%) |
|
点估计 |
95%可信区间 |
|
复杂抽样模型 |
49.34 |
47.57~51.11 |
简单抽样模型 |
47.21 |
45.44~48.98 |
高血压相关危险因素分析:运用复杂抽样模型和简单抽样模型对金阊区高血压的相关危险因素进行logistic回归分析,结果见表4。虽然两种模型计算的高 血压的OR值都没有显著性差异,但是复杂抽样模型计算的OR值的95%可信区间较简单抽样模型偏窄,可以认为复杂抽样模型对总体的估计较简单抽样模型准 确。简单抽样模型的logistic回归分析的前提是假定数据经过单纯随机抽样从无限总体中获得的,每个抽样个体的抽样权重是相同的。在实际调查研究中, 研究对象往往经过分层随机抽样、分层整群抽样等方法获得的,其抽样总体也是有限的。比如在本次实例分析中,采用分层整群抽样设计,不同抽样个体往往具有不 同的抽样权重,其权重值分布于5.5-16之间。计算时,两种模型得到的OR值及其95%可信区间是不一致的。因此非常有必要将抽样权重纳入到数据统计分 析,从而更好地进行统计推断,使得结论更加具有可信、可靠。
表4金阊区居民高血压的相关危险因素的logistic回归分析
变量 |
复杂抽样模型 |
|
简单抽样模型 |
||
OR |
95%CI |
OR |
95%CI |
||
年龄 |
1.063 |
1.059-1.068 |
|
1.064 |
1.054-1.073 |
女性 |
0.566 |
0.463-0.693 |
|
0.578 |
0.456-0.734 |
吸烟 |
0.837 |
0.677-1.034 |
|
0.800 |
0.615-1.041 |
饮酒 |
1.274 |
0.897-1.810 |
|
1.386 |
1.079-1.781 |
高血压家族史 |
1.740 |
1.209-2.504 |
|
1.870 |
1.552-2.253 |
TC |
1.033 |
0.975-1.095 |
|
1.018 |
0.965-1.073 |
TG |
1.066 |
0.968-1.173 |
|
1.085 |
1.016-1.159 |
HDL-C |
0.737 |
0.729-0.745 |
|
0.810 |
0.645-1.016 |
LDL-C |
1.124 |
1.027-1.229 |
|
1.132 |
1.011-1.268 |
FPG |
1.235 |
1.174-1.299 |
|
1.247 |
1.164-1.336 |
BMI |
1.113 |
1.056-1.173 |
|
1.093 |
1.053-1.134 |
WC |
1.015 |
0.993-1.038 |
|
1.020 |
1.006-1.035 |
总结:
在分析多阶段抽样资料时,一定要考虑到抽样权重,这关系到对总体的准确推断。从流行病学角度讲,多阶段抽样方法的运用,是为了节约成本,同时为了解决样本 代表性的问题。在实际工作中,由于不同地区间经济、文化、生活习惯、地理环境等因素的差异,为了选取一个能够代表整个国家或地区人群特征的样本,必须人为 地按照地理位置、经济发展状况的条件,将整个地区划分为不同层(strata),然后在层内进行随机抽样获得最小的抽样单位(unit),这样才能够确保 样本能够代表整体的特征,然而,在按照层来抽样的过程不是一个随机抽样的过程,从而决定了下随机抽样得到的样本不是独立的,而是存在相似性[15]的, 即每个unit里的研究个体的相似程度远远高于组间的,这样就存在“窝别效应”。再者,由于每个层内所包含的unit是不一致的,因此,有可能存在选择性 偏倚,即所抽的的样本中,研究个体在每个层内所占的比例是不一致的,有可能某一个层内的研究个体非常多,这就使样本的特征更趋向于代表该层的人群特征,从 而造成选择性偏倚。为了解决这两个问题,只能在分析过程中考虑到抽样权重,从而降低甚至消除选择性偏倚和“窝别效应”。
目前,大多数大样本的抽样调查都是通过多阶段抽样进行的,然而,他们的分析却用传统的、简单抽样模型。这就容易导致推断错误或者不准确,那么,为什么这一 问题没有引起研究者的重视呢?笔者认为可能是样本量足够大,从而掩盖了统计推断的不准确,因为当样本量足够大时,复杂抽样模型和简单抽样模型分析的结果是 不存在显著性差异的,但两者的95%可信区间是明显不一致的。再者就是目前国内统计软件更新过慢,目前只有SAS 9.0以上版本、SPSS 14.0以上版本和 S TA T统计软件才可以进行复杂抽样数据的统计分析。
总之,对于多阶段抽样资料的分析,我们应该运用复杂抽样模型来进行,而不应该拘泥于传统的统计方法,这样才能够避免推断错误,推动预防医学的发展,同时也为流行病方法学的研究提供了新的思路。
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#流行病#
44