350 字
2 分钟
PrincipleComponentAnalysis

PrincipleComponentAnalysis PCA 主成分分析#

举例#

假设一个二维空间中,所有的数据都均匀分布在x轴上,那么,数据在x上的方差显然是最大的。

因此如果需要把数据降维到1维,显然,使用x能够更好地保留数据之间地差异。反而使用y的话,所有数据集中在0附近,那么数据之间十分紧密,无法很好的进行区分。

alt text

进一步的,如果所有的数据都分布在一个y=xy=x的直线附近。单独使用x或者y进行表示都差不多,但是如果将坐标轴逆时针旋转45°就可以得到和上一个例子中相似的场景。

此时,数据在新的x轴上的差异更大。这种差异我们使用协方差(convariance)表示。协方差越大说明数据的差异更明显,能够保留更多的信息。

因此:如果要有效地降维,我们就需要找到一组能够使协方差最大的新的正交基向量。在这些正交基向量上投影,能够在降低数据维度的同时,保留数据的特征。

这些新的正交基,就是主成分(Principle Components)

并且:前 K 个主成分,就是前K个最大的特征值对应的特征向量。

证明略#

PrincipleComponentAnalysis
https://chrisnake11.github.io/blog/posts/others/neural-network/principlecomponentanalysis/
作者
Zheyv
发布于
2025-03-23
许可协议
CC BY-NC-SA 4.0