ASM(active shape model)算法简介(一)

来源：互联网发布：互联网金融矩阵编辑：程序博客网时间：2024/06/10 04:28

本文来源于我个人博客www.chenbiaolong.com

概要

ASM是一种基于点分布模型（Point Distribution Model,PDM）的算法。在PDM中，外形相似的物体，例如人脸、人手、心脏、肺部等的几何形状可以通过若干关键特征点（landmarks）的坐标依次串联形成一个形状向量来表示。ASM算法需要通过人工标定的方法先标定训练集，经过训练获得形状模型，再通过关键点的匹配实现特定物体的匹配。ASM 的优点是
能根据训练数据对于参数的调节加以限制，从而将形状的改变限制在一个合理的范围内。本文将根据ASM的原始论文和一些资料，整理ASM算法的数学原理。

训练图像的标定

为了建立ASM，需要一组标有n个特征点的N幅人脸图象(包括多个人的不同表情和姿态)作为训练数据。特征点可以标记在脸的外部轮廓和器官的边缘，如下图所示。
此处输入图片的描述
这张图中有67个标定点，需要注意的是各个标定点的顺序在训练集中的各张照片需要一致。比如2和12这两点分别对应脸和耳朵的连接处，在其他的训练图像中也要有一样的标定点。
假设我们一共有N张的训练图，每一张图都有n个点，第i张图像的第k点坐标表示为

(x i, j, y i, j)

对于第i张图像，各个标定点可以用一个矩阵表示：

X i = [x i 0, y i 0, x i 1, y i 1, . . . x i (n - 1), y i (n - 1)] T

其中1<=i<=N;

训练图像的对齐

为了研究训练图象的形状变化，比较不同形状中相对应的点，应先对这些图象进行对齐。对齐是指以某个形状为基准，对其它形状进行旋转，缩放和平移使其尽可能的与基准形状接近的过程。
与基准形状尽可能接近，在数学上我们经常用欧式距离的大小衡量接近的程度。假设图像i的标定点矩阵为Xi,图像j的标定点矩阵为Xj,二者的欧式距离大小为

d i k = (x i 0 - x k 0) 2 + (y i 0 - y k 0) 2 + (x i 1 - x k 1) 2 + (y i 1 - y k 1) 2 + . . . + (x i (n - 1) - x k (n - 1)) 2 + (y i (n - 1) - y k (n - 1)) 2 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt

也可以用如下的矩阵运算形式表示：

d 2 i k = (X i - X k) T (X i - X k)

有时我们需要对各个点加上不同的权值，设加权矩阵为W，加权的欧式距离为

d i k = w 0 (x i 0 - x k 0) 2 + w 0 (y i 0 - y k 0) 2 + w 1 (x i 1 - x k 1) 2 + w 1 (y i 1 - y k 1) 2 + . . . + w n - 1 (x i (n - 1) - x k (n - 1)) 2 + w n - 1 (y i (n - 1) - y k (n - 1)) 2 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -  ⎷  

或者用矩阵运算方式表示:

d 2 i k = (X i - X k) T W (X i - X k)

其中W是对角矩阵

W = d i a g (w 0, w 0, w 1, w 1, . . . w j, w j, . . . w n - 1, w n - 1)

为了实现训练图像的对齐，我们首先选择一幅基准图像，一般选择第一张图像X1。训练集中其他图片经过变换尽可能的接近该基准图像，具体的变化过程可以用一个缩放幅度参数s，旋转参数theta以及平移参数矩阵t表示。假设我们要将第2幅图像经过变换尽可能的接近第1幅图像，变换后的图像矩阵表示为：

M (s, θ) [X 2] - t

变换后的图像矩阵与基准矩阵X1的加权欧式距离平方表示为：

E = （ X 1 - M (s, θ) [X 2] - t ） T W （ X 1 - M (s, θ) [X 2] - t ）

其中

M (s, θ) [x j k y j k] = ((s * c o s θ) x j k - (s * s i n θ) y j k (s * s i n θ) x j k + (s * c o s θ) y j k) t = (t x, t y, t x, t y, . . . t x, t y) T

假设：

a x = s * c o s θ a y = s * s i n θ

为了得到最好的对齐结果，我们必须计算出缩放幅度参数s，旋转参数theta以及平移参数矩阵t使E达到最小，利用加权最小二乘法可以获得以下方程：

\partial E \partial a x = 0 \partial E \partial a y = 0 \partial E \partial t x = 0 \partial E \partial t y = 0

分别将E代入上面的式子，可以得到下面的矩阵方程：

⎛ ⎝ ⎜ ⎜ ⎜ X 2 Y 2 Z 0 - Y 2 X 2 0 Z W 0 X 2 - Y 2 0 W Y 2 X 2 ⎞ ⎠ ⎟ ⎟ ⎟ ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ a x a y t x t y ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ X 1 Y 1 C 1 C 2 ⎞ ⎠ ⎟ ⎟ ⎟

其中

X i = \sum k = 0 n - 1 W k x i k Y i = \sum k = 0 n - 1 w k y i k Z = \sum k = 0 n - 1 W k (x 2 2 k + y 2 2 k) W = \sum k = 0 n - 1 W k C 1 = \sum k = 0 n - 1 W k (x 1 k x 2 k + y 1 k y 2 k) C 2 = \sum k = 0 n - 1 W k (y 1 k x 2 k + x 1 k y 2 k)

通过以上方程就可以求出

a x, a y, t x, t y

这4个变量的值，对应的也就能将图像2对齐到图像1了。
在上面的方程中我们还没有讨论如何确定权重矩阵W。在训练集的各个点中，权重越高的点对结果的影响也就越大。那么如何确定一个点应该拥有多大的权重呢？在ASM的原始论文中作者选择了趋向比较稳定的点。一个稳定的点就是在训练集中与其他点的距离变化不大的点。
假设R_kl代表一张图片中k点和l点的距离，V_{R_kl}表示这个距离在所有训练图像中的变化量（原文是let V_{R_kl} be the variance in this distance over the set of shapes）。在原始论文中并没给出V_{R_kl}的计算表达式，但按照它的定义应该是可以表示为各张训练图像中R_kl组成的数组的方差形式。

V_{R_kl}表示在训练集中k点和l点距离的变化程度，如果将k点与其他所有点的距离变化程度进行累加，就可以判断出k点的稳定程度。对于权重W的确定有如下式子：

w k = （ \sum l = 0 n - 1 V R k l ） - 1

其中n为模型点的个数。
可以看出k点越稳定，w_k越大，k点也就有越大的权重。

综合前面的分析，我们可以将训练集中的第2，3，…，（N-1）张图片分别与第一张图像进行对齐，对齐完成后就可以进行下一步的图像分析了。

图像的PCA分析

前面已经将训练集中的所有图像进行对齐了，接下来将根据对齐后的图像数据进行PCA分析，最终得到训练好的形状模型。

假设我们已经有了N张已经对齐好的图像数据，第i张图像的数据表示为X_i,计算其平均形状为

X ¯ = 1 N \sum i = 1 N X i

由于图像的采样点可能比较多，如果直接全部计算所需耗费的计算时间比较大。因此可以利用PCA算法对图像数据进行降维处理。关于PCA的基础理论可以参考这篇文章。

将一组N维向量降为K维（K大于0，小于N），其目标是选择K个单位（模为1）正交基，使得原始数据变换到这组基上后，各字段两两间协方差为0，而字段的方差则尽可能大（在正交的约束下，取最大的K个方差）。

这是原始的定义，但实际上我们对一个形状各个点的原始坐标位置不感兴趣，我们感兴趣的是训练集中各张图像的各个形状点偏离平均形状的大小。因此，在这里我们映射到新空间的不是原始点坐标，而是各个点偏离平均形状的偏离坐标。偏离坐标的协方差矩阵为：

S = 1 N \sum i = 1 N d X i d X T i

其中dX_i为各张图片的形状与平均形状的偏差。

d X i = X i - X ¯

假设新空间的正交基表示为P：

P = ⎛ ⎝ ⎜ ⎜ ⎜ p 0 p 1 . . . p 2 k - 1 ⎞ ⎠ ⎟ ⎟ ⎟

根据PCA的相关知识，P为S的特征向量组成的矩阵,有

S p k = λ k p k

当映射到新的空间后，各个形状偏离平均形状的向量可以用新空间的特征向量线性表达。

d X i = b i 0 p 0 + b i 1 p 1 + . . . + b i (2 n - 1) p 2 n - 1

b_il是第i张图p_l向量的幅度值。至此我们有以下公式

X i = X ¯ + d X i = X ¯ + P b i

根据以上公式可以得到

b i = P - 1 (X i - X ¯) = P T (X i - X ¯)

这里的b_i表示第i张图片形状与平均形状的偏离程度。对于一种形状，它在不同图片的表现形式可以用如下公式表示:

X = X ¯ + P b

这里X表示形状允许的表现形式。比如我们做人脸识别，虽然各个人的长相不一样，并且拍照的角度不一样，但无论如何人脸的形状都是在平均脸的基础上进行一些形变得到的。我们可以规定向量b在一个区间范围之内，只要b不脱离这个区间，我们就能认为检测到一张人脸。这也是ASM做形状匹配的基础原理。至于b的区间范围，在ASM的原始论文中取

- 3 λ k - - \sqrt ⩽ b k ⩽ 3 λ k - - \sqrt

现在我们已经分析了ASM的图像对齐以及图像形状的PCA分析，在下一篇中我们将介绍如何进行形状的搜索。

参考文献

active shape models their training and application(原始论文)
An Introduction to Active Shape Models
ASM（Active Shape Model）算法介绍

0 0