漫步凸分析一——仿射集

来源：互联网发布：摄像头扫描软件编辑：程序博客网时间：2024/06/11 05:08

本文中，用R表示实数，Rn表示实n元x=(ξ1,…,ξn)的向量空间，除非特别指明，否则都是在Rn中讨论。在Rn中两个向量x,x∗的内积表示成

⟨ x, x * ⟩ = ξ 1 ξ * 1 + \dots + ξ n ξ * n

符号A既可以表示m×n的实矩阵A，也可以表示从Rn到Rm相应的线性变换x→Ax。转置矩阵以及从Rm到Rn相应的伴随线性变换都用A∗表示，所以大家需要知道下式的含义

⟨ A x, y * ⟩ = ⟨ x, A * y * ⟩

(在表示向量的符号中，*不进行任何操作；考虑到矩阵乘法，所有向量都看做列向量。我们不断的使用向量符号是为了让大家熟悉它的二元性，也就说说，既可以将向量看做点，也可以将向量看成线性函数的n元系数)所有证明过程都会用符号|| 表示证明结束。

如果x,y是Rn中不同的点，那么形如下面的点集就叫做通过x,y的直线

(1 - λ) x + λ y = x + λ (y - x), λ \in R

M是Rn的一个子集，如果对于每一个x∈M,y∈M,λ∈R，可得(1−λ)x+λy∈M，那么我们称这个子集为仿射集(affine set)。

空集∅和空间Rn本身就是仿射集的极端例子，另外M仅有一个孤立点的情况也满足定义。一般来讲，仿射集必须包含通过任意两个点的整条直线，直观印象是不存在弯曲的部分，就像空间中的一条直线或者一个平面。

仿射集正式的几何意义可能是从线性代数中Rn子空间的定理发展来的，仿射集和子空间之间准确的对应关系可以用下面两个定理描述。

定理1.1 Rn的子空间是包含原点的仿射集。

证明：每个子空间包含0并且对于加法和标量乘法封闭，所以它是一个仿射集。

反过来，假设M是一个包含0的仿射集。对于所有的x∈M,λ∈R，我们有

λ x = (1 - λ) 0 + λ x \in M

所以M对标量乘法封闭。接下来，如果x∈M,y∈M，我们有

1 2 (x + y) = 1 2 x + (1 - 1 2) y \in M

因此

x + y = 2 (1 2 (x + y)) \in M

所以M也对加法封闭，故它是一个子空间。||

对于M⊂Rn,a∈Rn，将M平移a定义为集合

M + a = {x + a | x \in M}

仿射集平移后依然是仿射集，很容易验证这个结论。

对于仿射集M，如果对于某个a,M=L+a，那么我们说M平行于仿射集L。很明显，“M与L平行”是Rn中仿射子集集类的一个等价关系，需要注意的是，这个平行定义和我们平常的平行定义是不同的，例如我们不能说一条线平行于一个平面，但可以说一条线平行于给定平面中的一条线，反之亦然。

定理1.2 每个非空仿射集M平行于唯一的子空间L，L由下式给出

L = M - M = {x - y | x \in M, y \in M}

证明：我们首先说明M不能与两个不同的子空间平行。平行于M的子空间L1,L2互相是平行的，那么存在某个a使得L2=L1+a。因为0∈L2，所以−a∈L1，因此a∈L1。但是这样的话L1⊃L1+a=L2，同理我们可以得到L2⊃L1，所以L1=L2，这就建立了唯一性。接下来通过观察得到，对于所有y∈M,M−y=M+(−y) 是M的一个平移操作，并且包含0，根据定理1.1以及刚刚的证明，这个仿射集肯定有唯一一个平行于M的子空间L，因为无论选择哪个y∈M，L=M−y恒成立，所以我们得出L=M−M。||

我们将非空仿射集的维数定义为与它平行的子空间的维数，(按照惯例，将空集∅的维数定义为-1)那么维数为0,1 和2的仿射集自然就称为点，线和面。Rn中(n−1)维的仿射集叫做超平面，超平面非常重要，因为他们不仅表示n维几何中的点，还具有其他含义。

超平面和其他仿射集也许能用线性函数和线性方程表示，我们可以从Rn的正交理论来推断这种形式。回忆一下，根据定义，x⊥y意味着⟨x,y⟩=0，给定Rn的一个子空间L，使得x⊥L(即对于每一个y∈L，x⊥y恒成立)的向量x 的集合叫做L的正交补，用L⊥ 表示。当然，这是另一个子空间，并且

dim L + dim L ⊥ = n

L⊥的正交补(L⊥)⊥是L。如果b1,…,bm是L的一个基，那么x⊥L等价于x⊥b1,…,x⊥bm。特别地，Rn的(n−1) 维子空间是一维子空间的正交补，一维子空间的基由一个非零向量b构成，因此(n−1)维子空间就是形如{x|x⊥b} 的集合，其中b≠0。超平面就是集合平移后的结果。但是

{x | x ⊥ b} + a = {x + a | ⟨ x, b ⟩ = 0} = {y | ⟨ y - a, b ⟩ = 0} = {y | ⟨ y, b ⟩ = β}

其中β=⟨a,b⟩，由此得到超平面的一个特征，即定理1.3。

定理1.3 给定β∈R和一个非零向量b∈Rn，集合

H = {x | ⟨ x, b ⟩ = β}

是Rn中的一个超平面，而且每个超平面可能用这种方式表示。

在定理1.3中，向量b叫做超平面H的法向量，H的每个法向量要么是b的正倍数，要么是负倍数。也就是说每个超平面有两边，就像R2中的一条直线或者R3中的一个平面，注意R4中的一个平面没有两边。

下一个定理将Rn的仿射子集表示为含有n个变量的联立线性方程组的解集。

定理1.4 给定b∈Rm和m×n的实矩阵B，集合

M = {x \in R n | B x = b}

是Rn中的仿射集，而且每个仿射集可能用这种方式表示。

证明：如果x∈M,y∈M,λ∈R,那么对z=(1−λ)x+λy，我们有

B z = (1 - λ) B x + λ B y = (1 - λ) b + λ b = b

所以z∈M，因此给定的M是仿射集。

另一方面，考虑任意一个非空仿射集M而不是Rn本身，让L是平行于M的子空间，令b1,…,bm是L⊥的一组基，那么

L = (L ⊥) ⊥ = {x | x ⊥ b 1, \dots, x ⊥ b m} = {x | ⟨ x, b i ⟩ = 0, i = 1, \dots, m} = {x | B x = 0}

其中B是m×n矩阵，它的行是b1,…,bm。因为M平行于L，所以存在一个a∈Rn使得

M = L + a = {x | B (x - a) = 0} = {x | B x = b}

其中b=Ba。(仿射集Rn和∅可以用定理中的形式表示，都令B是m×n的零矩阵，在Rn的情况下b=0，在∅的情况下b≠0)||

观察定理1.4我们还可以得出

M = {x | ⟨ x, b i ⟩ = β i, i = 1, \dots, m} = \cap m i = 1 H i

其中bi是B的第i行，βi是b的第i个元素，

H i = {x | ⟨ x, b i ⟩ = β i}

每个Hi都是一个超平面(bi≠0)，或者空集(bi=0,βi≠0)，或者Rn(bi=0,βi=0)。空集本身可能是两个不同平行超平面的交集，而Rn可能是Rn中空个超平面的交集，因此：

推论1.4.1 Rn中每个仿射子集是有限个超平面的交集。

定理1.4中的仿射集M可以用向量b′1,…,b′n(他们组成B的列) 表示，

M = {x = (ξ 1, \dots, ξ n) | ξ 1 b' 1 + \dots + ξ n b' n = b}

很明显，任意个仿射集的交集依然是仿射集，因此，给定任意S⊂Rn，存在一个唯一的包含S的最小仿射集(即，仿射集M的交集，其满足M⊃S)，这个集合叫做S 的仿射包并用aff S表示。通过证明可以得出aff S由所有形如λ1x1+⋯+λmxm的向量组成，其中xi∈S,λ1+⋯+λm=1。

对于m+1个点b0,b1,…,bm的集合，如果aff {b0,b1,…,bm}是m维的，那么这些点就是仿射无关(affinely independent)。当然

aff {b 0, b 1, \dots, b m} = L + b 0

其中

L = aff {0, b 1 - b 0, \dots, b m - b 0}

利用定理1.1，L与包含b1−b0,…,bm−b0的子空间是一样的，当且仅当这些向量是线性无关时它的维数是m，所以当且仅当b1−b0,…,bm−b0线性无关时b0,b1,…,bm是仿射无关。

所有关于线性无关的事实都可以应用到仿射无关上。例如，Rn中m+1个点仿射无关可以扩充到n+1个点，一个m维仿射集M可以表示成m+1个点的仿射包(将平行于M子空间的基相应的点进行平移)

注意，如果M=aff{b0,b1,…,bm}，与M 平行的子空间L中的向量是b1−b0,…,bm−b0的线性组合，因此M中的向量可以表示成如下形式

x = λ 1 (b 1 - b 0) + \dots + λ m (b m - b 0) + b 0

即

x = λ 0 b 0 + λ 1 b 1 + \dots + λ m b m, λ 0 + λ 1 + \dots + λ m = 1

上面的表达式中，当且仅当b0,b1,…,bm仿射无关时，x的系数是唯一的。这时候，作为参数的λ0,λ1,…,λm是M的重心坐标。

从Rn到Rm的单值映射T:x→Tx，如果对于Rn中的每一个x,y，λ∈R，下式成立

T ((1 - λ) x + λ y) = (1 - λ) T x + λ T y

那么这个映射就称为仿射变换。

定理1.5 从Rn到Rm的仿射变换就是形如Tx=Ax+a的映射T，其中A是一个线性变换并且a∈Rm。

证明：如果T是仿射的，令a=T0,Ax=Tx−a，那么A是一个仿射变换，并且A0=0。类似于定理1.1，这个简单的论据说明A实际是线性的。

反过来，如果Tx=Ax+a，其中A是线性的，我们可以得出

T ((1 - λ) x + λ y) = (1 - λ) A x + λ A y + a = (1 - λ) T x + λ T y

因此T是仿射的。||

仿射变换的逆(如果存在的话)还是仿射的。

如果从Rn到Rm的映射T是一个仿射变换，那么对于Rn中的每个仿射集M，像集TM={Tx|x∈M}在Rm 中是仿射的。特别地，仿射变换保留仿射包：

aff (T S) = T (aff S)

定理1.6 令{b0,b1,…,bm}和{b′0,b′1,…,b′m}是Rn中仿射无关集，那么存在一个Rn到自身的一一对应仿射变换T，使得对于i=0,…,m,Tbi=b′i。如果m=n，那么T是唯一的。

证明：如果需要的话，扩展给定的仿射无关集，我们可以将问题简化为m=n的情况，然后，正如线性代数中的那样，存在一个Rn到自身的一对一线性变换A，将Rn中的基b1−b0,…,bn−b0变成另一组基b′1−b′0,…,b′n−b′0，这就得到了我们需要的仿射变换Tx=Ax+a，其中a=b′0−Ab0。||

推论 1.6.1 令M1,M2是Rn中任意两个维数相同的仿射集，那么存在一个Rn到自身的一一对应的仿射变换T，使得TM1=M2。

证明：任何m维仿射集可以表示成m+1个仿射无关集的仿射包，并且在仿射变换下保留仿射包。||

从Rn到Rm的仿射变换T的图像是Rn+m中的一个仿射子集，因为根据定理1.4，如果Tx=Ax+a，T的图像由向量z=(x,y)组成，其中x∈Rn,y∈Rm，使得Bz=b，其中b=−a，B是从Rn+m到Rm的线性变换(x,y)→Ax−y。

特别地，从Rn到Rm的仿射变换x→Ax图像时包含Rn+m原点的仿射集，因此它是Rn+m的某个子空间L(定理1.1)，L的正交补如下

L ⊥ = {(x *, y *) | x * \in R n, y * \in R m, x * = - A * y *}

即L⊥是−A∗的图像。事实上，当且仅当对每个z=(x,y),y=Ax，下式

0 = ⟨ z, z * ⟩ = ⟨ x, x * ⟩ + ⟨ y, y * ⟩

成立，那么z∗=(x∗,y∗)属于L⊥。换句话说，当且仅当对于每个x∈Rn，下式

0 = ⟨ x, x * ⟩ + ⟨ A x, y * ⟩ = ⟨ x, x * ⟩ + ⟨ x, A * y * ⟩ = ⟨ x, x * + A * y * ⟩

成立，(x∗,y∗)∈L⊥。这就意味着x∗+A∗y∗=0，即x∗=−A∗y∗

任何非平凡仿射集可以用多种方式表示成仿射变换的图像，令M是RN中n维仿射集，其中0<n<N。首先，我们可以将M表示成向量x=(ξ1,…,ξN)的集合，并且坐标满足某个线性方程组

β i 1 ξ 1 + \dots + β i N ξ N = β i, i = 1, \dots, k .

根据定理1.4可知，这总是可能的。M的维度为n意味着系数矩阵B=(βij)零度为n并且秩为m=N−n，因此我们可以用ξ1¯,…,ξn¯的形式求出ξn+1¯¯¯¯¯,…,ξN¯的线性方程组，其中1¯,…,N¯是1,…,N的某个排列，接下来就得到特定形式的方程组

ξ n + i ¯ ¯ ¯ ¯ = α i 1 ξ 1 ¯ + \dots + α i n ξ n ¯ + α i, i = 1, \dots, m .

再次给出了向量x=(ξ1,…,ξN)属于M的充分必要条件，这个方程组称为给定仿射集的Tucker表示。它将M 表示成某个从Rn到Rm仿射变换的图像，对于某个M，只有有限多个Tucker表示(最多N!个，低于M 中向量的m 个坐标变量ξi可以用另外n个坐标向量按某种顺序进行表示)。

涉及到仿射集的定理通常可以解释成线性方程的定理，这时候，可能给出仿射集的一个Tucker表示，这种表示非常重要，例如线性不等式中的某些结论(定理22.6,22.7)和Fenchel’s对偶定理的某些应用(推论31.4.2)

当然，子空间L的Tucker表示齐次形式为

ξ n + i ¯ ¯ ¯ ¯ = α i 1 ξ 1 ¯ + \dots + α i n ξ n ¯, i = 1, \dots, m .

给定L的这种表示作为线性变换的图像，那么正如上面提到的，L⊥对应于负伴随变换的图像，因此，当且仅当

- ξ * j ¯ = ξ * n + i ¯ ¯ ¯ ¯ α 1 j + \dots + ξ * n + m ¯ ¯ ¯ ¯ ¯ α m j, j = 1, \dots, n

时，x∗=(ξ∗1,…,ξ∗N)属于L⊥。这就给出了L⊥的Tucker表示，因此给定一个子空间，它的Tucker表示与其正交补的Tucker表示之间有一个简单且有用的一一对应关系。

1 0