本节在共轭转置的基础上介绍奇异值和奇异值分解,为严格证明过程。
谱分解
共轭转置
矩阵A的共轭转置AH(又称Hermite共轭、Hermite转置)定义为:
AH=(Aˉ)T=ATˉ
酉矩阵
设U∈Cn×n阶复方阵,若UHU=I,则称U是酉矩阵。
Hermite矩阵
设A∈Cn×n,如果AH=A,那么A为Hermite矩阵;
如果AH=−A,则A为反Hermite矩阵。
Schur定理
任何一个n阶复矩阵都酉相似于一个上三角矩阵,则存在一个n阶酉矩阵U和一个n阶上三角矩阵R使得:
UHAU=R
其中R的对角元是A的特征值。
正规矩阵
设A∈Cn×n,如果:
AAH=AHA
则称A为正规矩阵。
可以证明,对角矩阵,Hermite矩阵,反Hermite矩阵,酉矩阵都是正规矩阵。
酉相似条件
n阶矩阵A酉相似于一个对角矩阵的充分必要条件为A是正规矩阵。
因此,若A是n阶Hermite矩阵,则A必酉相似与实对角矩阵,即存在n阶酉矩阵U使得:
UHAU=Λ
因为AH=A,则ΛH=Λ,因此Λ是实对角矩阵。
谱分解
Hermite的谱分解式
由上文可知,若A为Hermite矩阵,则:
UHAU=Λ
奇异值分解
奇异值定义
设A∈Cn×n,如果存在非负实数σ和非零向量u∈Cn,v∈Cm,使得:
Au=σv,AHv=σu
则称σ 为A的奇异值,u和v分别称为A对应于奇异值σ的右奇异向量和左奇异向量。
AHAu=σAHv=σ2u
因此σ2是AHA的特征值,也是AAH的特征值,而u和v分别是AHA和AAH对应于σ2的特征向量。
引理
设A∈Cm×n,则
- rank(AHA)=rank(AAH)=rank(A)
设A∈Cm×n,则
- AHA与AAH的特征值均为非负实数
- AHA与AAH的非零特征值相同,并且非零特征值个数等于rank(A)
定理
设A是正规矩阵,则A的奇异值为A的特征值的模。
设A是m×n矩阵,且rank(A)=r,则存在m阶酉矩阵U和n阶酉矩阵V使得:
UHAV=⎝⎛∑000⎠⎞
∑=diag(σ1,...,σr),且σ1≥...≥σr>0为矩阵A的奇异值
这个式子就被称为奇异值分解。
证明
易得AHA为Hermite矩阵,AHA的特征值λ2≥λ2≥...>0
由Schur定理可得,存在n阶酉矩阵,使得:
UH(AHA)V=⎝⎛∑2000⎠⎞
将V分解为V=(V1,V2),V1=Cn×r,V2=Cn×(n−r)
重写上式为:
AHA(V1,V2)=(V1,V2)⎝⎛∑2000⎠⎞
{AHAV1=V1∑2⇒V1HAHAV1=∑2⇒(AV1∑−1)H(AV1∑−1)=IAHAV2=0⇒V2HAHAV2=0⇒(AV2)H(AV2)=0
因此,AV2=0,U1=AV1∑−1,则U1是酉矩阵:U1HU1=I。
因此U1的前r列两两正交且为单位向量,将其扩充为Cm的标准正交基,U2=(ur+1,...,um)
则U=(U1,U2)是m阶酉矩阵,U1HU1=I,U2HU1=0
UH(AHA)V=UH(AV1,AV2)=⎝⎛U1HU2H⎠⎞(U1∑,0)=⎝⎛∑2000⎠⎞
因此:
A=U⎝⎛∑2000⎠⎞VH
V为AHA的r个非零特征值对应的特征向量并单位化
U为AAH的r个非零特征值对应的特征向量并单位化
奇异值分解的几何意义
我们观察SVD这个式子:
A=U∑VT
我们知道,若对一个向量乘以正交矩阵,相当于对其进行旋转变换(不改变长度和比例),而乘以一个对角矩阵,则相当于对其进行伸缩变换,因此,我们对线性变换X→AX,X为单位元上的点,其线性变化可以表示为:
一般的,设秩为r的m×n矩阵A有SVD:A=U∑VT,从Rn到Rm的线性变换X→AX可以看成是以下三步的复合:
Rn中的旋转X→VTX
Rn中的向量VTX的前r个分量做伸缩,其余分量变为零:
- VTX→∑VTX
再在Rm中做旋转∑VTX→U∑VTX
SVD的性质和本质
正交矩阵U的前r列是C(A)的一组标准正交基。
正交矩阵U的后m−r列是N(AT)的一组标准正交基。
正交矩阵V的前r列是C(AT)的一组标准正交基。
正交矩阵V的后n−r列是N(A)的一组标准正交基。
设∣λ∣max是矩阵的特征值的模长最大值,则:
σ1≥∣λ∣max,σ1≥∣aij∣
即最大奇异值大于等于特征值模长的最大值,也大于等于矩阵的元素
- 矩阵A列满秩 ⇔A的奇异值均非零
思考
对于正定对称矩阵而言,奇异值分解和对角化相同
特征值分解必须要求A为方阵,而奇异值分解不需要
AHA或AAH的特征值为A的奇异值的平方。
我们可以根据对AHA和AAH求特征值和特征向量,从而得到V、U、∑。