PCA（Principal Component Analysis）的原理、算法步骤和实现。

来源：互联网发布：php ajax上传编辑：程序博客网时间：2024/05/21 14:05

PCA的原理介绍：

PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。PCA的实质就是在尽最大可能保存原有信息的前提下，对原特征数据进行线性变换、映射变换到低维空间中。

主成分分析（ Principal Component Analysis ， PCA ）或者主元分析。是一种掌握事物主要矛盾的统计分析方法，它可以从多元事物中解析出主要影响因素，揭示事物的本质，简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定 n 个变量的 m 个观察值，形成一个 n ′ m 的数据矩阵， n 通常比较大。对于一个由多个变量描述的复杂事物，人们难以认识，那么是否可以抓住事物主要方面进行重点分析呢？如果事物的主要方面刚好体现在几个主要变量上，我们只需要将这几个变量分离出来，进行详细分析。但是，在一般情况下，并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面， PCA 就是这样一种分析方法。

PCA 主要用于数据降维，对于一系列例子的特征组成的多维向量，多维向量里的某些元素本身没有区分性，比如某个元素在所有的例子中都为1，或者与1差距不大，那么这个元素本身就没有区分性，用它做特征来区分，贡献会非常小。所以我们的目的是找那些变化大的元素，即方差大的那些维，而去除掉那些变化不大的维，从而使特征留下的都是“精品”，而且计算量也变小了。对于一个k维的特征来说，相当于它的每一维特征与其他维都是正交的（相当于在多维坐标系中，坐标轴都是垂直的），那么我们可以变化这些维的坐标系，从而使这个特征在某些维上方差大，而在某些维上方差很小。例如，一个45度倾斜的椭圆，在第一坐标系，如果按照x,y坐标来投影，这些点的x和y的属性很难用于区分他们，因为他们在x,y轴上坐标变化的方差都差不多，我们无法根据这个点的某个x属性来判断这个点是哪个，而如果将坐标轴旋转，以椭圆长轴为x轴，则椭圆在长轴上的分布比较长，方差大，而在短轴上的分布短，方差小，所以可以考虑只保留这些点的长轴属性，来区分椭圆上的点，这样，区分性比x,y轴的方法要好！

所以我们的做法就是求得一个k维特征的投影矩阵，这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交，特征向量都是正交的。通过求样本矩阵的协方差矩阵，然后求出协方差矩阵的特征向量，这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。

举例：

对于一个训练集，100个对象模板，特征是10维，那么它可以建立一个100*10的矩阵，作为样本。求这个样本的协方差矩阵，得到一个10*10的协方差矩阵，然后求出这个协方差矩阵的特征值和特征向量，应该有10个特征值和特征向量，我们根据特征值的大小，取前四个特征值所对应的特征向量，构成一个10*4的矩阵，这个矩阵就是我们要求的特征矩阵，100*10的样本矩阵乘以这个10*4的特征矩阵，就得到了一个100*4的新的降维之后的样本矩阵，每个特征的维数下降了。

当给定一个测试的特征集之后，比如1*10维的特征，乘以上面得到的10*4的特征矩阵，便可以得到一个1*4的特征，用这个特征去分类。

所以做PCA实际上是求得这个投影矩阵，用高维的特征乘以这个投影矩阵，便可以将高维特征的维数下降到指定的维数。

PCA 的目标是寻找 r （ r<n ）个新变量，使它们反映事物的主要特征，压缩原有数据矩阵的规模。每个新变量是原有变量的线性组合，体现原有变量的综合效果，具有一定的实际含义。这 r 个新变量称为“主成分”，它们可以在很大程度上反映原来 n 个变量的影响，并且这些新变量是互不相关的，也是正交的。通过主成分分析，压缩数据空间，将多元数据的特征在低维空间里直观地表示出来。例如，将多个时间点、多个实验条件下的基因表达谱数据（ N 维）表示为 3维空间中的一个点，即将数据的维数从 RN 降到 R3 。

在进行基因表达数据分析时，一个重要问题是确定每个实验数据是否是独立的，如果每次实验数据之间不是独立的，则会影响基因表达数据分析结果的准确性。对于利用基因芯片所检测到的基因表达数据，如果用 PCA 方法进行分析，可以将各个基因作为变量，也可以将实验条件作为变量。当将基因作为变量时，通过分析确定一组“主要基因元素”，它们能够很好地说明基因的特征，解释实验现象；当将实验条件作为变量时，通过分析确定一组“主要实验因素”，它们能够很好地刻画实验条件的特征，解释基因的行为。下面着重考虑以实验条件作为变量的 PCA 分析方法。假设将数据的维数从 R N 降到 R 3 ，具体的 PCA 分析步骤如下：

(2) 第二步计算协方差矩阵S的本征向量e1,e2,…,eN的本征值, i = 1,2,…,N 。本征值按大到小排序：；

(3)第三步投影数据到本征矢张成的空间之中，这些本征矢相应的本征值为。数据可以在三维空间中展示为云状的点集。

对于 PCA ，确定新变量的个数 r 是一个两难的问题。我们的目标是减小 r ，如果 r 小，则数据的维数低，便于分析，同时也降低了噪声，但可能丢失一些有用的信息。究竟如何确定 r 呢？这需要进一步分析每个主元素对信息的贡献。

贡献率表示所定义的主成分在整个数据分析中承担的主要意义占多大的比重，当取前 r 个主成分来代替原来全部变量时，累计贡献率的大小反应了这种取代的可靠性，累计贡献率越大，可靠性越大；反之，则可靠性越小。一般要求累计贡献率达到 70% 以上。

经过 PCA 分析，一个多变量的复杂问题被简化为低维空间的简单问题。可以利用这种简化方法进行作图，形象地表示和分析复杂问题。在分析基因表达数据时，可以针对基因作图，也可以针对实验条件作图。前者称为 Q 分析，后者称为 R 分析。

PCA算法的步骤：

设有m条n维数据。

1）将原始数据按列组成n行m列矩阵X

2）将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值

3）求出协方差矩阵C=1mXXT

4）求出协方差矩阵的特征值及对应的特征向量

5）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P

6）Y=PX即为降维到k维后的数据

PCA的Matlab实现：

%PCA算法，matlab实现
function F=pcad(A,n)%A是M*N
%测试实例A=[2.5,0.5,2.2,1.9,3.1,2.3,2,1,1.5,1.1;2.4,0.7,2.9,2.2,3.0,2.7,1.6,1.1,1.6,0.9]
%结果F=[0.8280，-1.7776，0.9922，0.2742，1.6758，0.9129，-0.0991，-1.1446，-0.4380，-1.2238]
%PCA第一步：均值化
X=A-repmat(mean(A,2),1,size(A,2))%去均值
%PCA第二步：求特征协方差矩阵
B=COV(X')%求协方差
%PCA第三步：求特征协方差矩阵的特征值和特征向量
[v,d]=eig(B)%求特征值和特征向量
%PCA第四步：将特征值按照从大到小的顺序排序
d1=diag(d);%取出对角矩阵，也就是把特征值提出来组成一个新的M*1的d1矩阵
[d2 index]=sort(d1); %特征值以升序排序 d2是排序后的结果 index是数排序以前的排名位置
cols=size(v,2);% 特征向量矩阵的列数
for i=1:cols %对特征向量做相反位置的调整是个降序排列。这个过程把特征值和特征向量同时做相应的降序排列
vsort(:,i) = v(:,index(cols-i+1) ); % vsort 是一个M*col(注:col一般等于M)阶矩阵，保存的是按降序排列的特征向量,每一列构成一个特征向量
%vsort保存的是协方差矩阵降序后的特征向量，为M*M阶
dsort(i) = d1(index(cols-i+1)); % dsort 保存的是按降序排列的特征值，是一维行向量，1*M
end %完成降序排列
M=vsort(:,1:n)%提取主成分量
%PCA第五步：将样本点投影到选取的特征向量上
F=(X'*M)'%最终的投影

仿真结果：

>> x=[2,4,5;5,8,9;1,6,9;2,7,9];
>> [COFFE,SCORE,latent]=princomp(x);
>> COFFE

COFFE =

    0.3827    0.8511   -0.3594
    0.6337    0.0413    0.7725
    0.6723   -0.5234   -0.5235

>> SCORE

SCORE =

   -3.6341    1.0516    0.0121
    2.7379    1.6767   -0.0702
   -0.0601   -1.8104   -0.1775
    0.9562   -0.9179    0.2356

>> latent

latent =

    7.2069
    2.6790
    0.0307

>> cumsum(latent)./sum(latent)

ans =

    0.7267
    0.9969
    1.0000

>> pareto(latent)

0 0