独立成分分析

来源：互联网发布：互换身体的网络电影编辑：程序博客网时间：2024/06/02 18:39

在已知语音信号方向的情况下，波束形成能明显改善语音质量，提高信噪比；然而在实际环境中，人可能是走动的，即使坐立不动，由于身体的扭曲使得语音到达阵列的方向也是变化的，此时波束形成效果受到限制。如果我们能在不知语音信号方向等先验知识的前提下，把混合的语音分离开来，提取感兴趣的语音信号，达到语音增强的目的，这就是独立成分分析(Independent Component Analysis，ICA)。

1 概述

独立成分分析是盲源分离(Blind SourceSepatation，BSS)的一种方法，将混合的信号分离成潜在的信息成分。“盲”的意思即这种方法能在不知或知道很少声源信号属性的情况下将其分离开来。

假设两个说话人同时对着两个位于不同位置的麦克风说话，两个麦克风接收到的信号是两个语音的混合信号，即x₁(t)和x₂(t)，其中x₁和 x₂表示幅度，t为时间坐标。每个麦克风接收到的信号是两个说话人语音的加权和，假设是线性瞬时混合，则

x₁(t) = a₁₁s₁+ a₁₂s₂

_{x₂(t) = a₂₁s₁+ a₂₂s₂}

其中a₁₁， a₁₂，a₂₁和a₂₁是由说话人与麦克风之间距离决定的参数。盲源分离就是仅利用麦克风接收到的信号x₁(t)和x₂(t)去估计出原始语音信号s₁(t)和s₂(t)，这就是著名的“鸡尾酒会”问题。

解决这一问题的一种方法就是利用信号s_i(t)的一些统计信息来估测出a_ij，从而便解方程组得到s₁(t)和s₂(t)。在s₁(t)和s₂(t)统计独立的情况下，独立成分分析能很好解决这一问题。

假设混合变量和独立成分都是零均值的，即使不是零均值，也可通过减去一个平均值使之变为零均值。假设有n个独立成分，用向量和矩阵将独立成分分析模型一般化为

x = As

其中x=[x₁x_{2 …}x_n]为麦克风接收到的观察信号，A=[ a₁₁a_{12 …}a_1n; a₂₁a_22…a_2n;…a_n1a_{n2 …}a_nn]^T为混合矩阵，s=[ s₁s_{2 …}s_n]为待求解的独立信号。这里没有考虑噪声，A和s均是未知的，仅假设s_i是相互独立的且x_i至多只有一个是高斯分布。利用独立成分分析解出A，对其求逆得W=A^-1，则独立信号即可解得

s = Wx

一个独立成分分析方法本质是上一个目标函数加上一个自适应更新算法。

2 ICA目标函数

(1) 非高斯性

独立成分非高斯分布是ICA的基本限制，因为如果混合矩阵是正交的且s_i是高斯分布的，则x₁和x₂是高斯分布、非相关且具有单位方差，其联合密度曲线完全对称的，它不包含混合矩阵A列方向上的任何信息，因此A是不可估计的。所以非高斯性意味着独立。

假设s_i具有一致的分布，定义z=A^Tw，w为W的某一行，则y=w^Tx=w^TAs=z^Ts为s_i的线性组合。根据中心极限定理，在一定条件下独立随机变量和的分布比各独立随机变量更接近高斯分布。这样，只要尽可能减少y的高斯性，s_i就接近于非高斯分布，显然当z中仅有1个非零值时y的高斯性最小，此时y=s_i。因此，只需要使w^Tx有最大非高斯性的w就是我们所求的解。

用非高斯性质方法做独立成分分析，需要一个随机变量非高斯性的数学准则。为了便于分析，假设y是零均值且方差为1。常用的标准有以下几种

1) 峰态

峰态，又称4阶累积量，是一种经典的非高斯性准则。y的峰态定义为

kurt(y) = E{y⁴} – 3(E{y²})²

由于假设y的方差为1，所以右式等于E{y⁴} – 3，因而峰态仅由E{y⁴}决定。高斯随机变量的峰态为0，而对于大多数非高斯随机变量，峰态不为0。

峰态值可正可负，具有负峰态的随机变量叫亚高斯随机变量，反之叫超高斯随机变量。超高斯随机变量的概率密度函数曲线两边高中间低，亚高斯随机变量的概率密度函数在零值附近为常数，变量大时峰态很小。

通常用峰态的绝对值或峰态的平方判定变量的非高斯性，其值为0说明是高斯变量，其值越大非高斯性越强。峰态便于计算，假设s₁和s₂是两个独立随机变量，则

kurt(s₁+s₂)= kurt(s₁)+ kurt(s₂)

kurt(αs₁) =α⁴kurt(s₁)

其中α为标量。正因为如此，峰态广泛应用于ICA非高斯性的判断标准。

假设两个独立成分s₁和s₂具有峰态值kurt(s₁)和kurt(s₂)，由于y=w^Tx=w^TAs=z^Ts=z₁s₁+z₂s₂，则kurt(y)=kurt(z₁s₁)+kurt(z₂s₂)=z₁⁴kurt(s₁)+z₂⁴kurt(s₂)。约束y使之方差也为1，得E{y²}=z₁²+z₂²=1。几何上意味着z被限定在单位圆上。因而问题转化为求方程| kurt(y)|=| z₁⁴kurt(s₁)+z₂⁴kurt(s₂)|在单位圆上的最大值，即最优规划问题。Delfosse和Loubaton证明当向量z中仅有一个元素为0时取得最大值，由于单位圆的限制，z中非零元素必为1或-1，此时y的值就是其中一个独立成分∓s_i。

实际应用时可以先初始化权向量w，计算峰态y=w^Tx增长(峰态为正)或下降(峰态为负)最快的方向，然后运用梯度相关算法更新w，这样就解决了ICA问题。

然而，峰态作为非高斯性判断准则鲁棒性不好，因为它的值由测量采样值估计而来，对异常值极为敏感，因而可能由于采样的原因由异常值计算出错误的峰态。

2) 负熵

负熵是另一种重要的非高斯性判断准则，它由信息论中的熵得来。一个离散随机变量Y的熵H定义为