2008-11-21
第1节 方法的概述
主成分分析、因子分析、变量聚类分析都是研究变量之间的相互关系。有时,在某些实际问题中,既要研究变量之间的关系、还要研究样品之间的关系。不仅如此,人们往往还希望能在同一个直角坐标系内同时表达出变量与样品两者之间的相互关系。实现这一目的的方法,称为对应分析(Correspondence Analysis)。 对应分析,也称相应分析,它是列联表资料的加权主成分分析,用它去寻求列联表的行列变量之间联系的低维图示法。此方法的关键是利用一种数据变换方法,使含有n个样品m个变量的原始数据矩阵 变成另一个矩阵 ,并使R=Z'Z(分析变量之间关系的协方差矩阵)与Q=ZZ'(分析样品之间关系的协方差矩阵)具有相同的非零特征根,它们相应的特征向量之间也有密切的关系。对协方差矩阵R、Q进行加权主成分分析或因子分析,分别能提取两个最重要的公因子R1、R2与Q1、Q2。由于采取的是一种特殊变换方法,公因子R1与Q1在本质上是相同的,同理,R2与Q2在本质上也是相同的,故可用dim1作为R1、Q1的统一标志;用dim2作为R2、Q2的统一标志,于是可将(R1,Q1)和(R2,Q2)两组数据点在由(dim1,dim2)组成的同一个直角坐标系中。这样,便于考察变量与样品之间的相互关系。
第2节 对应分析中的变量变换方法
设原始数据矩阵X=(xij)nm,i=1,2,…,n(n为样品数);j=1,2,…,m(m为变量数)。又设xi.为第i行的合计、x.j为第j列的合计、x..为全部数据的合计,则变量变换的公式为:
(6.3.1)
由此变换产生出矩阵Z,即 。分别对R=Z'Z与Q=ZZ'进行加权主成分分析或因子分析,就实现了对应分析。 从这种变换可以看出:原始数据xij并非一定是频数,也可以是正实数。这说明对应分析可以处理R×C列联表资料,也可处理适合作主成分分析、因子分析、聚类分析的资料。
第3节 用CORRESP过程实现对应分析
[例6.3.1] 我们知道:疾病与人的基因型密切有关,而不同民族各种基因出现的频率不尽相同。下面是某研究者收集到的资料,试分析各种基因频率与民族之间的关系。各民族下面的小数是44种基因出现的频率。 基因型 藏族(Z) 尼泊尔(N) 印度(Y) 汉族(H) 基因型 藏族(Z) 尼泊尔(N) 印度(Y) 汉族(H) A10.03080.0180 0.1190 0.0149B38 0.04650.0470 0.0030 0.0015 A20.33330.1070 0.1480 0.3492B39 0.01020.0000 0.0090 0.0176 A30.02040.0190 0.1010 0.0176B46 0.01020.0090 0.0000 0.1813 A90.30370.2790 0.1560 0.1414B48 0.05720.1500 0.0030 0.0108 A10 0.04090.0180 0.0390 0.0313B50 0.01020.0180 0.0370 0.0000 A11 0.13540.4220 0.1260 0.2977B53 0.00500.0000 0.0060 0.0000 A28 0.00000.0180 0.0830 0.0094B54 0.01530.0000 0.0000 0.0176 A30 0.04130.0000 0.0000 0.0217B55 0.05720.0280 0.0260 0.0217 A31 0.05180.0370 0.0220 0.0121B56 0.01020.0090 0.0060 0.0040 A32 0.00000.0190 0.0390 0.0013B57 0.00500.0180 0.0390 0.0341 A33 0.00000.0670 0.0830 0.0608B58 0.00000.0670 0.0330 0.0139 B50.28280.1180 0.1340 0.0825B60 0.06260.0280 0.0220 0.0723 B70.00000.0190 0.0800 0.0244B61 0.08990.0000 0.0830 0.1080 B80.01020.0118 0.0450 0.0094B70 0.00500.0000 0.0080 0.0000 B12 0.01020.0370 0.0660 0.0121C10.08990.0370 0.0230 0.1716 B13 0.01020.0770 0.0060 0.0650C20.02040.0000 0.0730 0.0397 B14 0.00000.0000 0.0060 0.0013C30.17980.1070 0.0830 0.3269 B15 0.19230.2540 0.0960 0.1092C40.16510.0770 0.1340 0.0495 B18 0.00500.0280 0.0220 0.0000C50.00000.0090 0.0160 0.0054 B27 0.10670.0000 0.0260 0.0204C60.02560.2450 0.0450 0.0081 B35 0.06260.0570 0.1480 0.0342C70.17120.2180 0.1190 0.1152 B37 0.01020.0180 0.0090 0.0067C80.00500.0000 0.0040 0.0027 数据文件名为SCWCORS.DAT,可以写成22行10列或44行5列的数据矩阵,即把右边的5列写在左边5列数据之下,这样在计算结果中基因型的顺序就与原来的顺序一致了。
[SAS程序]──[D6P4.PRG] DATA b; TEXT =jy; INFILE 'a:scwcors.dat'; SIZE =2; INPUT jy$ z n y h; LABEL X='Dimension 1' PROC CORRESP OUTC=ccc; Y='Dimension 2'; VAR z n y h;KEEP X Y TEXT XSYS YSYS SIZE; ID jy; RUN; RUN;GOPTION DEVICE=EGA; PROC GPLOT DATA=ccc; DATA ccc;SYMBOL1 V=NONE; SET ccc;AXIS1 LENGTH=5 IN ORDER=-0.9 TO 0.9 BY 0.2; X=dim1; AXIS2 LENGTH=5 IN ORDER=-0.9 TO 0.9 BY 0.2; Y=dim2; PLOT Y*X=1 / ANNOTATE=ccc FRAME HAXIS=AXIS1 XSYS ='2';VAXIS=AXIS1 HREF=0 VREF=0; YSYS ='2'; RUN; (程序的第1部分) (程序的第2部分)
[程序修改指导] 如果不想绘图或没有GRAPH(绘图)模块,可只用程序第1部分的前7行。若数据文件的格式是22行10列,在INPUT语句的分号之前应加@@符号。INPUT语句中所写的变量名应与VAR语句、ID语句和TEXT语句中的变量名一致。jy(基因)、Z(藏族)、N(尼泊尔)、Y(印度)、H(汉族)。 GOPTIONS是调用GPLOT过程绘图所需的设置语句,DEVICE=规定用来绘图的设备名称,若在其后写VGA或EGA,表明只在显示器上显示图形;若写打印机的型号,则表明要将图形绘在打印机上。若用户的打印机型号与GRAPH规定的型号一致,则可正常执行下去;否则,需从SAS说明书或SAS软件的帮助信息中查找与自己机型接近的型号,试验几种型号,也许能找到合适的设备代号。
[输出结果及其解释] The Correspondence Analysis Procedure Inertia and Chi-Square Decomposition ①②③ ④ ⑤ Singular Principal Chi- ValuesInertias Squares Percents816243240 ----+----+----+----+----+--- 0.423020.178951.83072 41.61% ************************** 0.392660.154181.57736 35.85% ********************** 0.311370.096950.99184 22.54% ************** -------------- 0.430074.39992 (Degrees of Freedom = 129) 这里最有用的是第②列,即矩阵R的特征值。将根据前两个较大的特征值分别算出与样品(基因型)轰量(民族)对应的特征向量。
Column Coordinates Dim1 Dim2 Z -.202490 0.008300 N 0.365818 -.546045 Y 0.452903 0.575439 H -.591500 0.042981 这是每个变量(指Z、N、Y、H)在两个公因子上的负荷,其结果可表示为∶ Z=-0.202490Dim1+0.008300Dim2N= 0.365818Dim1-0.546045Dim2 Y= 0.452903Dim1+0.575439Dim2H=-0.591500Dim1+0.042981Dim2 在以dim1与dim2作为横轴与纵轴的直角坐标系内, 每个变量就是1个点,如Z(藏族)点的坐标为(-0.202490,0.008300)。显然,Z(藏族)、H(汉族)两个点在第2象限内;N(尼泊尔)点在第4象限内、Y(印度)点在第1象限内。 这4个点中任何两点之间的欧氏距离如下: 两民族间 Z─N Z─Y Z─H N─Y N─HY─H 欧氏距离 0.7940.8670.3911.1251.1241.172 显然,藏族与汉族之间的距离最短,说明这2个民族在多数基因的出现频率上具有较高的正相关关系。 [说明] 设A、B两点的坐标分别为(a1,a2)、(b1,b2),则A、B两个民族间的欧氏距离D(A-B)计算公式为:D(A-B)=[(a1-b1)2+(a2-b2)2]1/2。 (甲) Summary Statistics for the Column Points Quality MassInertia Z 0.141295 0.262868 0.177665 N 0.973700 0.263015 0.271321 Y 0.981473 0.227357 0.288838 H 0.769723 0.246760 0.262176 Quality为每个变量上两个公因子贡献率(即标有“乙”的结果中各行数值)之和(%),若此值接近于1,则表明对应的变量所包含的信息由两个公因子就可很好地反映出来;Mass为原始数据中各列数据之和占总合计的百分比(%);Inertia为每个变量对总特征值0.43007贡献的百分比(%),由此列数值可看出∶后三个民族贡献的百分比十分接近。 Partial Contributions to Inertia for the Column Points Dim1 Dim2 Z 0.060231 0.000117 N 0.196693 0.508637 Y 0.260614 0.488289 H 0.482461 0.002957 这是每个公因子上每个变量的贡献率(%),各列数值之和为1。显然,汉族对第1公因子贡献最大;尼泊尔、印度这2个民族对第2公因子贡献最大。
Indices of the Coordinates that Contribute Most to Inertia for the Column Points Dim1 Dim2 Best Z 0 0 1 N 2 2 2 Y 2 2 2 H 1 0 1 这是各变量的坐标对特征值贡献最多的标志,贡献少、中、多依次用0、1、2来表示。
(乙) Squared Cosines for the Column Points Dim1 Dim2 Z 0.141058 0.000237 N 0.301636 0.672064 Y 0.375423 0.606050 H 0.765680 0.004043 这是每个变量上两个公因子各自的贡献率,各行数值之壕应近似为1,因为只用了两个主要的公因子,与最小特征值0.09695对应的公因子的贡献未给出,故少了一些信息。由各行数值可看出:尼泊尔、印度这2个民族的信息几乎完全可由这2个公因子反映出来;而藏族的信息则不能很好地由这2个公因子来反映。 同理,可以解释关于样品(本例为基因型)的类似输出结果。因这部分结果所占篇幅太多(从略),下面仅给出扼要的说明(实际上是本例的专业结论)。 [专业结论] B46、C3对第1公因子贡献最大;B48、C6对第2公因子贡献最大。它们的点所对应的坐标(dim1,dim2)分别为:B46(-1.24991,0.03763)、C3(-0.51926,0.01783)、B48(0.40926,-0.91316)、C6(0.73052,-0.84440)。显然,B46与C3这两点落在第2象限内、且距离很近;B48与C6这两点落在第4象限内、且距离较近。再结合上面关于“ColumnCoordinates”部分的解释可知:藏族与汉族接近主要表现在B46与C3两种基因型上有较高的一致性(因为这4点都落在第2象限内、且距离很近);而尼泊尔族与印度族接近主要表现在B48与C6两种基因型上有较高的一致性(因为这4点都落在第4象限内、 且距离较近)。因绘出的图中点数太多,很难看清,从略。
|
信息化软件应用目录 OA 办公自动化系统
CRM 客户关系管理系统
PM 项目管理系统
SCM 供应链管理系统
CC 协同商务系统
BPM 业务流程管理
BI 商务智能
CMS 内容管理系统
KM/KBS 知识管理系统
电子商务系统
HRM 人力资源管理系统
ERP 企业资源计划
EAM 企业资产管理系统
|