Baidu
map

SPSS 10.0高级教程十一:相关分析

2012-04-12 生物谷 生物谷

在医学中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下一章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实现。 SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一般包括以下三个过程: Bivariate过程 此过程用于进行两个/多个变量间的参数/非参

在医学中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下一章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实现。

SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一般包括以下三个过程:

  • Bivariate过程 此过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则给出两两相关的分析结果。这是Correlate子菜单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的95%以上。下面的讲述也以该过程为主。
  • Partial过程 如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。
  • Distances过程 调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。

§9.1 Bivariate过程

9.1.1 界面说明

【Variables框】

用于选入需要进行相关分析的变量,至少需要选入两个。

【Correlation Coefficients复选框组】

用于选择需要计算的相关分析指标,有:

  • Pearson复选框 选择进行积距相关分析,即最常用的参数相关分析
  • Kendall's tau-b复选框 计算Kendall's等级相关系数
  • Spearman复选框 计算Spearman相关系数,即最常用的非参数相关分析(秩相关)

【Test of Significance单选框组】

用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。

【Flag significant correlations】

用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P<0.05的系数值旁会标记一个星号,P<0.01的则标记两个星号。

【Options钮】

弹出Options对话框,选择需要计算的描述统计量和统计分析:

  • Statistics复选框组 可选的描述统计量。它们是:
  1. Means and standard deviations每个变量的均数和标准差
  2. Cross-product deviations and covariances各对变量的交叉积和以及协方差阵
  • Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

9.1.2 分析实例

例9.1 请计算SPSS自带的样本数据judges.sav中意大利(judge1)和韩国法官(judge2)得分的相关性。

解:由于judge1和judge2的数据分布不太好,这里同时计算Pearson相关系数和Spearman相关系数。操作如下:

这种做法严格说来是有问题的,我这样做主要是想偷懒。

  1. Variables框:选入judge1、judge2
  2. Pearson复选框:选中
  3. Spearman复选框:选中
  4. 单击OK钮

9.1.3 结果解释

例9.1的输出结果如下所示:

Correlations

在上面的结果中,变量间两两的相关系数是用方阵的形式给出的。每一行和每一列的两个变量对应的格子中就是这两个变量相关分析结果结果,共分为三列,分别是相关系数、P值和样本数。由于这里只分析了两个变量,因此给出的是2*2的方阵。由上表可见judge1、judge2自身的相关系数均为1(of course),而judge1和judge2的相关系数为0.91,P<0.001,有非常显著的统计学意义。

hand.gif (149 bytes)  如果需要得到具体的P值。请进入表格的编辑模式,双击P值所在的单元格,就可以看到精确的P值大小。

上表的标题内容翻译如下: 

    Italy South Korea
Italy Pearson积距相关系数
P值(双侧)
样本数
1.000
.
300
.910
.000
300
South
Korea
Pearson积距相关系数
P值(双侧)
样本数
.910
.000
300
1.000
.
300

Nonparametric Correlations

此处的表格内容和上面Pearson相关系数的结果非常相似,只是表格左侧注明为Spearman等级相关。可见judge1和judge2的等级相关系数为0.92,P<0.001,有非常显著的统计学意义。

9.2 Partial过程

9.2.1 界面说明

【Variables框】

用于选入需要进行偏相关分析的变量,至少需要选入两个。

【Controlling for框】

用于选择需要在偏相关分析时进行控制的协变量,如果不选入,则进行的就是普通的相关分析。

【Test of Significance单选框组】

意义同前,用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。

【Display actual significince level复选框】

用于确定是否在结果中给出确切的P值,一般选中。

【Options钮】

弹出Options对话框,选择需要计算的描述统计量和统计分析:

  • Statistics复选框组 可选的描述统计量。它们是:
  1. Means and standard deviations每个变量的均数和标准差
  2. Zero-order correlations给出包括协变量在内所有变量的相关方阵
  • Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

9.2.2 结果解释

偏相关分析的结果和普通相关分析几乎完全相同,非常容易看懂,比如说我们要在排除变量judge3的影响后计算变量judge1和judge2的相关性(只是举个例子而已,这样是没有实际依据的),则结果如下:

Partial Corr

- - -  P A R T I A L   C O R R E L A T I O N   C O E F F I C I E N T S  - - -
Controlling for..    JUDGE3
              JUDGE1     JUDGE2
JUDGE1        1.0000      .5632
             (    0)    (  297)
             P= .       P= .000
JUDGE2         .5632     1.0000
             (  297)    (    0)
             P= .000    P= .
(Coefficient / (D.F.) / 2-tailed Significance)
" . " is printed if a coefficient cannot be computed

这些结果一目了然,不用再解释了吧,可见当控制了变量judge3的影响后,judge1和judge2的相关系数值大大降低,但仍然具有统计学意义。

请注意,友好的统计软件界面是会骗人的:偏相关分析和协方差分析一样,里面蕴涵的统计学知识要远比你用统计软件进行操作时感觉到的内容复杂的多,这些分析都具有严格的适用条件,在进行分析之前需要对数据是否满足条件进行考察。因此进行这些分析前一定要参考有关书籍,并慎重行事。

9.3 Distances过程

Distances过程是专门进行距离相关分析用的,由于该方法大多数人用的非常少,里面又涉及到太深的统计原理,这里我只对界面做一解释,就不再深入下去了。如要用到,请参考有关的多元统计专业书。

【Variables框】

用于选入需要进行距离相关分析的变量,至少需要选入两个。

【Label cases by框】

选择一个变量用于给各个记录加上标签,可以不选。

【Compute Distances单选框组】

其中有两个选择,Between cases表示作变量内部观察值之间的距离相关分析,Between variables表示作变量之间的距离相关分析。

【Measure单选框组】

用于选择分析时采用的距离类型:Dissimilarities为不相似性测距,Similarities为相似性测距。

【Measure钮】

和前面的Measure单选框组配合使用,单击后弹出Distance:Dissimilarity Measure对话框,用户可根据数据特征选用测距方法:

选择Dissimilarities时各种数据类型可用的测距方法有:

1、计量资料

  • Euclidean distance:以两变量差值平方和的平方根为距离;
  • Squared Euclidean distance:以两变量差值平方和为距离;
  • Chebychev:以两变量绝对差值的最大值为距离;
  • Block:以两变量绝对差值之和为距离;
  • Minkowski:以两变量绝对差值p次幂之和的p次根为距离;
  • Customized:以两变量绝对差值p次幂之和的r次根为距离。

2、计数资料

  • Chi-square measure:χ2值测距;
  • Phi-square measure:ψ2值测距,即将χ2测距值除合计频数的平方根。

3、二分类变量

  • Euclidean distance:二分差平方和的平方根,最小为0,最大无限;
  • Squared Euclidean distance:二分差平方和,最小为0,最大无限;
  • Size difference:最小距离为0,最大无限;
  • Pattern difference:从0至1的无级测距;
  • Variance:以方差为距,最小为0,最大无限;
  • Lance and Williams:Bray-Curtis非等距系数,界于0至1之间。

选择Similarities时各种数据类型可用的测距方法有:

1、计量资料

  • Pearson correlation:以Pearson相关系数为距离;
  • Cosine:以变量矢量的余弦值为距离,界于-1至+1之间。

2、二分类变量

  • Russell and Rao:以二分点乘积为配对系数;
  • Simple matching:以配对数与总对数的比例为配对系数;
  • Jaccard:相似比例,分子与分母中的配对数与非配对数给予相同的权重;
  • Dice:Dice配对系数,分子与分母中的配对数给予加倍的权重;
  • Rogers and Tanimoto:Rogers and Tanimoto配对系数,分母为配对数,分子为非配对数,非配对数给予加倍的权重;
  • Sokal and Sneath 1:Sokal and Sneath Ⅰ型配对系数,分母为配对数,分子为非配对数,配对数给予加倍的权重;
  • Sokal and Sneath 2:Sokal and Sneath Ⅱ型配对系数,分子与分母均为非配对数,但分子给予加倍的权重;
  • Sokal and Sneath 3:Sokal and Sneath Ⅲ型配对系数,分母为配对数,分子为非配对数,分子与分母的权重相同;
  • Kulczynski 1:Kulczynski Ⅰ型配对系数,分母为总数与配对数之差,分子为非配对数,分子与分母的权重相同;
  • Kulczynski 2:Kulczynski平均条件概率;
  • Sokal and Sneath 4:Sokal and Sneath 条件概率;
  • Hamann:Hamann概率;
  • Lambda:Goodman-Kruskai相似测量的λ值;
  • Anderberg's D:以一个变量状态预测另一个变量状态;
  • Yule's Y:Yule综合系数,属于2×2四格表的列联比例函数;
  • Yule's Q:Goodman-Kruskal γ值,属于2×2四格表的列联比例函数。

3、其他类型变量

  • Ochiai:Ochiai二分余弦测量;
  • Sokal and Sneath 5:Sokal and Sneath Ⅴ型相似测量;
  • Phi 4 point correlation:Pearson相关系数的平方值;
  • Dispersion:Dispersion相似测量。
  • 同时,还可以选择数据转换形式:
  • None:不作数据转换;
  • Z-Scores:作标准Z分值转换;
  • Range -1 to 1:作-1至+1之间的标准化转换;
  • Range 0 to 1:作0至1之间的标准化转换;
  • Maximum magnitude of 1:作最大量值1的标准转换;
  • Mean of 1:作均数单位转换;
  • Standard deviation of 1:作标准差单位转换。

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

SPSS 10.0高级教程五:SPSS结果窗口用法详解

§4.1 结果窗口元素介绍 SPSS实际上提供了两个结果窗口--结果浏览窗口和结果草稿浏览窗口。前者最为常用,显示美观,但非常消耗系统资源;后者实际上是一个RTF格式文档,显示简单朴素,但节省资源。我们可以根据所用计算机的情况选择使用哪一种窗口。 结果草稿浏览窗口的内容虽然是RTF格式,但由于中、英文兼容性的问题,其中的表格读入WORD以后会变的面目全非,因此对我们不是很适用。 4.1.1

SPSS 10.0高级教程六:SPSS统计绘图功能详解

在常用的统计软件中,SAS绘制的统计图不太美观;而SPSS绘制的统计图较为美观,可以满足大多数情况下的要求;STATA绘制的统计图形最为精美,但由于它采用命令行方式操作,美观的图形需要添加大量选项,普通人不易掌握;而S-PLUS、MATHLAB等偏数理统计的软件虽然绘图能力也非常强,但由于自身的定位问题,并不为大多数人所熟悉。因此,在各种统计软件中,以SPSS制作的统计图应用最为广泛。 EXE

SPSS 10.0高级教程十:征服一般线性模型(2)

§8.4 多元方差分析 所谓的多元方差分析,就是说存在着不止一个应变量,而是两个以上的应变量共同反映了自变量的影响程度。比如要研究某些因素对儿童生长的影响程度,则身高、体重等都可以作为生长程度的测量因子,即都应作为应变量。 8.4.1 分析步骤 为了方便起见,我们这里直接利用SPSS自带的数据集plastic.sav,假设tear_res、gloss和opacity都使反应橡胶质量的指标(不

SPSS 10.0高级教程七:描述性统计分析详解

描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表;Descriptives过程则进行一般性的统计描述;Explore过程用于对数据概况不清时的探索性分析;Cross

SPSS 10.0高级教程八:均数间的比较

知道吗?在计算机领域中有个著名的80/20规则,也就是在奔腾及更早的CPU所采用的CISC指令集中,有80%的任务是被20%的最常用指令所完成的;换言之,另外80%的复杂指令只完成20%的不常用任务。 好了,言归正传。现在我要非常高兴的向大家宣布:80/20规则在SPSS的使用中同样有效!仅以Analyze菜单为例,其中最常用的子菜单为: Discriptive Statistics

SPSS 10.0高级教程九:征服一般线性模型

请注意,本章的标题用了一些修辞手法,一般线性模型可不是用一章就可以说清楚的,因为它包括的内容实在太多了。 那么,究竟我们用到的哪些分析会包含在其中呢?简而言之:凡是和方差分析粘边的都可以用他来做。比如成组设计的方差分析(即单因素方差分析)、配伍设计的方差分析(即两因素方差分析)、交叉设计的方差分析、析因设计的方差分析、重复测量的方差分析、协方差分析等等。因此,能真正掌握GLM菜单的用法,会使大家

Baidu
map
Baidu
map
Baidu
map