SUDAAN统计分析软件:在调查研究中复杂抽样中的应用
2014-05-05 MedSci MedSci原创
SUDAAN(Survey Data Analysis)统计软件是专门针对流行病学调查中复杂抽样的数据进行数据分析的统计学软件包,它可以对调查数据通过加权的方式进行统计学校正,从而提高了分析结果的精确度。该软件是美国北卡三角研究所(Research Triangle Institute in Cary,NC)于上世纪70年代研制开发的一种统计分析软件。该软件经过不断发展和改进,目前版本为SUD
SUDAAN(Survey Data Analysis)统计软件是专门针对流行病学调查中复杂抽样的数据进行数据分析的统计学软件包,它可以对调查数据通过加权的方式进行统计学校正,从而提高了分析结果的精确度。该软件是美国北卡三角研究所(Research Triangle Institute in Cary,NC)于上世纪70年代研制开发的一种统计分析软件。该软件经过不断发展和改进,目前版本为SUDAAN 9.0。SUDAAN软件不仅可用于Windows操作系统,也可用于Linux操作系统;该软件有两种版本,一是独立运行版本,二是在SAS软件环境下运行的版本。下面对SUD从N统计软件进行简要的介绍。
理论依据
在大规模流行病学抽样调查时,通常采用分层(stratification)、重复(replication)与整群(clustering)等复杂抽样方法获得数据。这些抽样方法对统计分析结果有影响。例如,如果研究变量为分类变量,可将总体分成不同的类别,然后在各类内进行随机抽样,由于分层抽样所得到的层间抽样误差明显小于简单随机抽样,所以分层抽样将获得更为精确的总体参数估计值。通常情况下,总体参数估计的精确性依赖于权重的大小,如果对分层或整群效应不进行校正,方差、标准误和可信区间的估计均会出现错误。如果采用不加权简单随机抽样计算变异度指标的方法来计算分层抽样的变异度,将扩大分层抽样的变异度大小。为了合理估计分层抽样的变异度,有必要对此校正。
一般的统计分析程序包在分析过程中均假定抽样方法为简单随机抽样,换言之,他们没有自行对复杂抽样设计的方法进行校正。在许多复杂抽样设计中,对于选择的不均衡性、无应答偏倚和采用分层、重复与整群等方法的抽样,必须通过加权的方式进行统计学校正,因为这些效应导致了精确度的丢失和样本含量效应的下降。另外,当开展普查时,对计数资料和调查中的访问性应答(interview response)资料也要单独进行加权调整。如果研究者忽视了加权的问题,显著性检验将会得到一个假阳性结果,从而导致统计推断的偏倚。因此应该对流行病学调查中复杂抽样的数据进行校正以期得到更为准确的统计学结论。
数据对象
SIDAAN软件主要用来分析复杂抽样调查的聚集性数据和权重数据,尤其是对递归事件(recurrent events)、纵向数据(10ngitudinal data)、重复测量(repeated measures)、多变量结局(multivariate outcomes)、多阶段抽样设计(multi—stage sample designs)、分层设计(stratified deSigns)、不等权重数据(unequally weighted data)和无归还样本(without—replacement samples)等聚集性数据进行分析,此外也用来分析随机试验、观察性或实验流行病学研究数据。在统计分析中,SUDAAN软件允许规定数据的相关方式和给定权重值。当调查的抽样权重发生变化时,通常会改变抽样误差,而SUDAAN软件允许对这种不等权重进行调整。
数据来源及文件管理
SUDAAN统计软件可直接读取SAS或者SPSS/windows 8.0版本的数据集,也可以应用美国信息交换标准码ASCII文件,但是SuDAAN软件在读取ASCII文件时需要两个ASCII文件,SUDAAN软件中ASCII文件的类型是通过后缀加以区分的,它需要一个名为DBS的文件。为了指明哪些变量在数据集的什么地方出现,SUDAAN软件需要一个名为a.LAB的代码文件。两个可选择的附加文件分别用于指明数据集的标题(a.FLD)和表明离散型变量的类别(a.LEV)。为了使用户容易理解程序语句,SUDAAN软件所使用的语句与SAS基本相同。SUDAAN文件含有定义设计类型和访问数据的输入语句和形成输出文件的输出语句。
分析内容
SUDAAN软件通常可进行如下统计分析:
1.描述性分析计算频数、百分比、优势比(OR)、相对危险度及其标准误;
2.分层列联表数据的卡方检验和Cochran-Mante-Haenszel检验;
3.拟合对数线性模型,分析率及其标准误;
4.一般最小二乘法回归、加权最小二乘法回归,二分类logistic回归、多分类logistic回归、多项式对数回归模型;
5.利用比例风险回归模型进行生存分析;
6.利用复杂结构变量得到广义估计方程(GEE),并利用广义估计方程拟合边际模型(marginal model)或者总体一平均模型(population—averaged models);7.进行变量的稳健估计,对类间相互关系、不等权重、分层及无归还抽样进行解释。
SUDAAN软件在描述和模型拟合过程中。提供了三种稳健估计方法:①Binder法:Taylor线性化序列(Taylor series linearization)实现广义估计方程求解,②Bootstrap法中的刀切法(Jackknife):含有或不含有用户指定的重复权重,③Balance Repeated Replication(BRR)。这些方法的介绍和数学表达式此处从略,参见williams RI等人的著述。
统计分析过程
SUDAAN软件提供了多种数据过程步(records procedure)对数据集进行检验。描述性过程步(Descriptive procedure)可以对变量的每个水平进行样本含量、总体含量、平均值、比例、几何均数、分位数、标准误和设计效果的估计;交叉表格过程步(Crosstabs procedure)可以计算频数、百分位数分布、优势比、相对危险度和标准误,也可以对独立变量进行卡方检验和对分层的双向表格进行Cochran—Mantel—HaenSzel卡方检验;比率过程步(Ratio procedure)可以对一般性的比率的标准误进行估计和计算;回归过程步(Regression procedure)可以拟合线性回归模型和logistic回归模型,并通过广义估计方程和变量的稳健估计对模型参数进行假设检验,对于一个自变量的不同水平或两个以上自变量之间的交互作用,均可以通过效应或对比语句检验应变量的统计学意义,对于协同变异可以通过最小二乘法进行计算;KAPMEIER过程步(KAP—MEIER procedure)是做生存分析(suⅣival analysis)的非参数分析程序模块,适用于小样本,并能绘制图形;生存分析过程步(Sur、,ival procedure)可以对时间一事件数据拟合Cox比例风险回归模型。
总之,SuDAAN统计软件提供了对复杂抽样设计进行校正、各种各样的有效统计分析方法。
与其他分析软件相比的优势
SUDAAN软件设计伊始就定位分析复杂的流行病学调查研究中出现的聚集性数据,有关的统计描述与统计推断过程都一应俱全,而且根据具体数据的情况,供选择的方差估计方法比其他软件要多,甚至超过同类软件wesVar。wesVar并不像SUDAAN软件那样具有处理多分类生存分析数据的能力,其中包括Cox回归。无论是SPSS还是wesvar都不能对纵向分析做一般性估计方程,然而SUDAAN软件可以做到。在SUDAAN统计分析过程中,要对不同的抽样设计进行不同的统计分析方法的调用,它的许多运行结果还用作其他软件作同类分析时的参照。目前,SUDAAN软件是处理复杂抽样数据较为有效的工具。
SUDAAN软件的局限性
虽然SUDAAN软件对于复杂抽样设计有独到之处,但仍存在如下几个主要问题:
1.SUDAAN软件通常用来进行一些重复测量资料分析,比如生存分析、横跨性重复测量设计等等,从这个角度而言,它不能处理混合效应或随机效应。要解决这个问题必须增大数据集。
2.由于没有设计用于数据管理的程序,所以其数据管理能力较差。SUDAAN建议用户在做统计分析之前对数据进行预处理,或预先采用其他程序进行数据管理。
3.SUDAAN软件在进行统计分析时要求所有的数据必须转化为数值型数据并且要按照巢式变量的水平进行降序排列。分类型数据不能采用0编码,因为在SUDAAN软件中0意味着为缺失值。在用SUDAAN软件进行统计学分析时,必须谨慎对待缺失值,分析过程中最好不要舍弃不完整的抽样数据。
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
您好,我是非医学专业的学生,有个问题想请教一下您。我在网上找了SUDAAN9.0版本的安装包,并进行了安装。虽安装成功,但是没有WSUDAAN.exe这个应用程序。我用不了该软件。请问这是安装包的问题吗?还是破解版用不了。如果仅是安装包问题,请问您能否分享一个正确的SUDAAN9.0版本安装包,请发到我的邮箱xinuwang@126.com,感激不尽。
101
这个软件目前国内好像用的不多。不过最近你在美国流行病学杂志上看到哥伦比亚大学的某项研究使用的这个软件。对流行病学数据分析方法精益求精。
144
不错哦
161
#SUDAAN#
87
#DAA#
71
#AAN#
69