典型相关分析(Canonical Correlation Analysis, CCA)是多元统计分析中的一种方法,主要用于分析两组变量之间的关系。它寻找两组变量的线性组合,使得这些组合之间的相关性最大化。
基本原理
假设有两组随机变量 (X = (X_1, X_2, \dots, X_p)) 和 (Y = (Y_1, Y_2, \dots, Y_q)),典型相关分析旨在找到一对线性组合 (u = a^T X) 和 (v = b^T Y)(其中 (a) 和 (b) 是系数向量),使得 (u) 和 (v) 的相关系数 (\rho(u, v)) 达到最大。
数学表示
- 目标函数:最大化 (u) 和 (v) 的相关系数 (\rho(u, v))。
$$[
\max_{a, b} \rho(a^T X, b^T Y) = \max_{a, b} \frac{a^T \Sigma_{XY} b}{\sqrt{a^T \Sigma_{XX} a \cdot b^T \Sigma_{YY} b}}
]$$
其中,(\Sigma_{XY}) 是 (X) 和 (Y) 之间的协方差矩阵,(\Sigma_{XX}) 和 (\Sigma_{YY}) 分别是 (X) 和 (Y) 的协方差矩阵。 - 求解方法:通过拉格朗日乘数法和特征值问题求解上述优化问题,可以得到最大典型相关系数及对应的系数向量 (a) 和 (b)。
Q:为什么是想找到两个主成分的相关性最大?
A:主要是为了揭示这两组变量间可能存在的最强统计联系。这种分析帮助我们从高维数据中提取最有信息量的特征。