典型相关分析

2008-11-13

第１节　方法的概述

研究２组变量之间的相关性，是许多实际问题的需要。例如，研究病人的各种临床症状(X1、… 、Xp)与所患各种疾病(Y1、… 、Yq)之间的相关性；研究原料的主要质量指标(X1、… 、Xp) 与其相应产品的主要质量指标(Y1、… 、Yq)之间的相关性；研究居民的营养状况的一组指标(X1、… 、Xp)与其健康状况的另一组指标(Y1、… 、Yq)之间的相关性等等。当ｐ＝ｑ＝１时，就是２个变量之间的简单相关分析问题；当ｐ＞１、ｑ＝１时，就是１个因变量与多个自变量之间的多元相关分析问题；当ｐ、ｑ均大于１时，就是研究２组多变量之间的相关性，称为典型相关分析(Canonical Correlation Analysis)。
利用主成分的思想，可以把多个变量之间的相关化为两个变量之间的相关。胀是找１组系数A＝(a1、… 、ap)'及B＝(b1、… 、bq)'，使得新变量

　与　

之间有最大可能的相关系数，称（V1, W1）为第１对典型相关变量，它们之间的相关系数ｒ(V1,W1)简记为ｒ1；同理,可求得第２、第３、 …、第K(K小于等于ｐ, ｑ中较小者)对典型相关变量以及与之对应的相关系数ｒ2、… 、ｒk。各对典型相关变量所包括的相关信息互不交叉，且满足:
① ;

② ;

③各Vi和Wi的均数都为０，方差都为１。
求出典袖量对和典型相关系数后，把具有显著意义的典型相关系数所对应的典袖量对保留下来，并给予合理的解释，是典型相关分析作得好坏的关键。

第２节　用CANCORR过程实现典型相关分析

[例6.6.1]　某医学院对MEFV(最大呼气流速─容量)曲线进行研究，测定了103例50～79岁正常男性的MEFV曲线资料，这里挑选其中的６项指标，把它们分为２组：一组为２个(ｐ=２)反映用力肺活量指标─X1(用力肺活量(L))和X2(第１秒用力肺活量(L))；另一组为４个(ｑ=４)反映呼气流速的指标─Y1(最大呼气中期流速(L/S))、Y2(用力呼气后期流速(L/S))、Y3(呼出50％肺容量时最大流速(L/S))、Y4(呼出75％肺容量时最大流速(L/S))。试作MEFV曲线中这两组指标的典型相关分析。
６项指标构成的相关矩阵见[D6P15.PRG]，其中行与列的指标顺序依次为X1、X2、Y1至Y4，如X1与Y4的简单相关系数为0.3019。
　[SAS程序]──[D6P15.PRG]
　DATA FGH(TYPE=CORR);
INPUT _NAME_$ 1-2 (X1 X2 Y1-Y4) (8.);
　_TYPE_='CORR';
CARDS;
　X1 1.0 0.8491　0.5106　0.2497　0.5285　0.3019
　X2 0.8491　1.0 0.8062　0.5438　0.7887　0.6064
　Y1 0.5106　0.8062　1.0 0.7833　0.9284　0.8364
　Y2 0.2497　0.5438　0.7833　1.0 0.6457　0.9051
　Y3 0.5285　0.7887　0.9284　0.6457　1.0 0.7079
　Y4 0.3019　0.6064　0.8364　0.9051　0.7079　1.0
　;
　PROC CANCORR EDF=102;
VAR X1 X2;WITH Y1-Y4;RUN;

[程序修改指导]　在数据集名FGH后用TYPE=CORR注明数据的类型为相关矩阵，而不是原始数据。INPUT语句中用“_NAME_$”读取左侧的变量名,“1-2”表示变量名的字符落在第１、２列上，“(X1 X2 Y1-Y4)”表示各列数据所对应的变量名,“(8.)”表示读取数据的宽度均为８列(注∶相关系数占６位，其后的空格占２位)，_TYPE_＝'CORR'表示数据类型为相关矩阵。
选择项EDF=N-1,为典型相关分析提供一个计算误差自由度的参考值, 因为该过程中没有合适的选择项可以将原始数据的样本含量N准确地送入。如果忽略这一选择项，将以缺省值N=10000作为样本含量参与有关计算和统计检验，不够妥当。
如果输入的是原始数据, 则程序可改写成下面的形式∶
DATA FGH;
　INPUT X1 X2 Y1-Y4;CARDS;
　3.3460　2.4104　2.3893　0.4263　2.9515　0.9338
　…… (注: 省略号处还有N-1行数据)
　;
PROC CANCORR;
　VAR X1 X2;　WITH Y1-Y4;　RUN;

[输出结果及其解释]　Canonical Correlation Analysis
　Adjusted Approx Squared
CanonicalCanonicalStandardCanonical
Correlation　CorrelationErrorCorrelation
1　0.873549 0.8691700.0234580.763089
2　0.286114 0.2568370.0909090.081861
求得第１对典袖量(V1，W1)之间的典型相关系数ｒ1=0.873549，校正值为0.869170、标准误差为0.023458、典型相关系数的平为0.763089;第２行是第２对典袖量(V2,W2)的有关结果。
Eigenvalues of INV(E)*H
= CanRsq/(1-CanRsq)
Eigenvalue　Difference　Proportion　Cumulative
1 3.2210　3.1318 0.9731　0.9731
2 0.0892. 0.0269　1.0000
这是与r2／(1-r2)相对应的２个特征值，依次为3.2210和0.0892。r2为典型相关系数之平。
　Test of H0: The canonical correlations in the current
row and all that follow are zero
Likelihood
　RatioApprox FNum DFDen DFPr > F
1　0.2175174427.74548　1940.0001
2　0.918138552.91263980.0382

Multivariate Statistics and F Approximations
S=2M=0.5N=47.5
Statistic Value FNum DF　Den DF　Pr > F
Wilks' Lambda　0.21751744 27.74548 194　0.0001
第１部分是用似然比法检验典型相关系数与零的差别是否显著，检验ｒ1时，其零假设为ｒ1以及小于ｒ1的所有典型相关系数都为零；检验ｒ2时,其零假设为ｒ2以及小于ｒ2的所有典型相关系数都为零，依此类推。所求的似然比统计量近似服从Ｆ，其Ｐ值依次为P<0.0001和P=0.0382，说明第１和第２典型相关系数分别具有非常显著和显著的意义。
对ｒ1的检验结果与用Wilks' ∧ 统计量进行多元分析的结果是等价的。

　Raw Canonical Coefficients for the 'VAR' Variables
　V1V2
X1　-0.683560368　-1.765389378
X2　1.5129465118　1.1379135675
Raw Canonical Coefficients for the 'WITH' Variables
　W1W2
Y1　0.8692628837　-1.046744053
Y2　-0.0774540630.853797769
Y3　0.1688480883　-0.330772634
Y4　0.0375413811　0.8858186575
这是用原指标来线性表达典袖量的系数，即：
　┌ V1=-0.683560X1+1.512947X2
　｜
　└ W1=0.899263Y1-0.077454Y2+0.168848Y3+0.037541Y4
　┌ V2=-1.765389X1+1.137914X2
｜
　└ W2=-1.046744Y1+0.853798Y2-0.330773Y3+0.885819Y4

Standardized Canonical Coefficients for
the 'VAR' Variables
　V1V2
X1-0.6836-1.7654
X21.51291.1379
Standardized Canonical Coefficients for
the 'WITH' Variables
　W1W2
Y10.8693-1.0467
Y2-0.07750.8538
Y30.1688-0.3308
Y40.03750.8858
这是用标准化指标xi和yi来线性表达典袖量的系数，即：
┌ V₁=-0.6836x1+1.5129x2
｜
└ W₁=0.8693y1-0.0775y2+0.1688y3+0.0375y4
同理可写出用标准化指标来线性表达V2、W2的表达式。
此处本应是４个典型结构(Canonical Structure)矩阵，省略了。这４个典型结构矩阵都是典袖量与相应的原指标之间的相关系数。如X₁与V₁的相关系数为0.6011，Y₄与W₂的相关系数为0.5489, 依此类推。可以看出Y₁与W₁之间的相关系数最大，Y₃与W₁之间的相关系数次之，即在典型变量W₁所提取的相关信息中，Y₁和Y₃的贡献最大。
[专业结论]　从用标准化指标表达的第１对典袖量不难看出：反映用力肺活量的第１典袖量V₁主要由第１秒用力肺活量(x₂)决定；反映呼气流速的第２个典袖量W₁主要由最大呼气中期流速(y₁)决定。故用力肺活量指标和呼气流速指标的相关主要是第１秒用力肺活量和最大呼气中期流速的相关。作为参考，第２对典袖量可能补充反映了x₂与(y₂, y₄)之间的相关。

相关链接
中国BI之父——阮夏名	2008-11-16	Cognos Cube性能优化、参数配置和更新	2008-11-18
如何把商业智能（BI）集成到SOA中	2008-11-04	对应分析	2008-11-25
商业智能(BI)技术已成为企业差异化因素	2008-11-28	商业智能在供应链管理中的应用	2008-12-07
利用SOA简化集成BI 企业使BI和SOA一拍...	2008-10-18	中小企业需要商务智能BI	2008-10-14
四招优化企业商业智能	2008-10-10	奥运年商业智能（BI）领域将会令人振奋	2008-10-07

信息化软件应用目录

OA 办公自动化系统 CRM 客户关系管理系统 PM 项目管理系统 SCM 供应链管理系统 CC 协同商务系统 BPM 业务流程管理 BI 商务智能 CMS 内容管理系统 KM/KBS 知识管理系统电子商务系统 HRM 人力资源管理系统 ERP 企业资源计划 EAM 企业资产管理系统