SAS常用程序(1)
2012-04-17 生物谷 不详
2.1 利用SAS软件描述样本数据 用SAS可以对样本数据进行全面描述,得出样本的各种特征数以及频数分布图。在阅读以下内容之前请先阅读第一章“SAS软件基本操作”。 2.1.1 用MEANS语句描述数据 例 2.1 计算课本上习题1.2的平均数和标准差。 解
2.1 利用SAS软件描述样本数据
用SAS可以对样本数据进行全面描述,得出样本的各种特征数以及频数分布图。在阅读以下内容之前请先阅读第一章“SAS软件基本操作”。
2.1.1 用MEANS语句描述数据
例 2.1 计算课本上习题1.2的平均数和标准差。
解 在进行分析之前,最好先建立一个外部数据文件。如果不建立外部数据文件,在作业流中输入数据也可以。一般来说,在数据量比较大,有可能重复使用时,最好建立一个数据文件。在这里我们创建一个称为2-1data.dat 的外部数据文件,存储在A盘中。用MEANS过程描述数据的最基本的程序如下:
options linesize=76;
data abc;
infile ‘a:\2-1data.dat’;
input x;
run;
proc means;
run;
提交SAS运行后,所得结果如下:
表2-1: 例2.1输出的结果
The SAS System
Analysis Variable : X
N |
Mean |
Std Dev |
Minimum |
Maximum |
250 |
63.2760000 |
3.0139941 |
55.0000000 |
70.0000000 |
打印的结果中包括:数据个数,平均数,标准差,最小值和最大值。这是MEANS语句在缺省时得到的基本结果。若需要对数据作更详细的描述,则要指明所需的统计量(关于统计量的概念见课本2.2.4)。用MEANS过程所计算的统计量,在这里也一并列出。下面还会反复提到“变量”这一名词,关于变量的概念见课本2.2.1。MEANS过程所计算的统计量是用关键词表示,这些关键词及其含义如下:
N:输入的观测值(观测值的概念见课本2.2.1)个数
NMISS:每个变量所含缺失值的个数
MEAN:变量的平均数
STD:变量的标准差
MIN:变量的最小值
MAX:变量的最大值
RANGE:变量的极差
SUM:变量所有值的和
VAR:变量的方差
USS:每一变量原始数据的平方和(未校正平方和)
CSS:每一变量的离均差平方和(校正平方和)
CV:变异系数
STDERR:每一变量的标准误差(平均数的标准差)
T:在H0:μ= 0时的t 值(见课本5.1.4)
PRT:在H0:μ= 0 的假设下,统计量t 大于t 临界值绝对值的概率(见课本4.1.1)
SKEWNESS:偏斜度
KURTOSIS:峭度
CLM:置信区间的上限和下限(见课本6.2.1)
LCLM:置信区间的下限
UCLM:置信区间的上限
另外,在PROC MEANS语句中还有12个选项,其中几个主要选项如下:
DATA=(SAS 数据集):指出SAS 数据集的名称,若省略,则使用最近产生的数据集
MAXDEC=(数字):指出所输出的结果中,小数部分的最大位数(0-8),缺省时为8 位
FW=(域宽):指出打印的结果中每个统计量的域宽,缺省时为12
VARDEF=(DF / N):VARDEF=DF为缺省值,表示计算方差时,使用n-1 作分母,
VARDEF=N表示计算方差时,使用观测值个数n 作分母
ALPHA=(α值):指出在计算置信区间时,选用的显著水平
例2.2 计算课本上习题1.2的离均差平方和,方差,偏斜度和平均数的0.95置信区间。
解 仍然使用2-1data.dat 外部数据文件。MEANS过程如下:
options linesize=76;
data abc;
infile ‘a:\2-1data.dat’;
input x;
run;
proc means data=abc maxdec=4 fw=8 alpha=0.05
css var skewness clm;
run;
运行的结果如下:
表2-2:例2.2输出的结果
The SAS System
Analysis Variable : X
CSS |
Variance |
Skewness |
Kurtosis |
Lower 95.0% CLM |
Upper 95.0% CLM |
2261.96 |
9.0842 |
-0.1548 |
-0.1894 |
62.9006 |
63.6514 |
在PROC MEANS语句中,data=abc选项是可以省略的,因为PROC MEANS语句所分析的正是最近的SAS数据集,若需从SAS数据库中调用某一数据集时,则DATA选项不可省略。在建立外部数据文件时,应每个数据占一行,250个数据占250行(只占一列)。这样输入数据太麻烦,核对起来也不方便。如果想连续输入数据,则应在INPUT语句的变量后加上@@,即“inpet x @@;”,具体说明见例2.4。
在进行科学研究时,需要处理的变量数目往往很多,而且变量之间还存在一定关系,经常要计算在某一变量特定水平下,其它变量的一些特征数。例如,在做人群健康情况调查时,涉及的变量多达十几个甚至几十个。如,性别、年龄、身高、体重、吸烟程度、饮酒程度、视力、听力、血压、脉搏、血黏度、胆固醇含量……。如果要计算不同程度吸烟者或不同性别受检者的各项指标或其中若干项指标的某些统计量,只需加上VAR语句和CLASS语句,便能很容易完成此项工作。VAR语句指明所需描述的变量,CLASS语句可以按观测值的不同类别分类计算指定的统计量。
例 2.3 在做小麦育种时,调查了杂交后代的若干性状,选取其中一部分列在下表中(表2本文系梅斯医学(MedSci)原创编译整理,转载需授权!-->
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#SAS#
51