本节在共轭转置的基础上介绍奇异值和奇异值分解,为严格证明过程。

谱分解

共轭转置

矩阵AA的共轭转置AHA^H(又称Hermite共轭、Hermite转置)定义为:

AH=(Aˉ)T=ATˉA^H = (\bar A) ^T = \bar {A^T}

酉矩阵

UCn×nU \in C^{n\times n}阶复方阵,若UHU=IU^HU = I,则称UU是酉矩阵。

Hermite矩阵

ACn×nA\in C^{n\times n},如果AH=AA^H = A,那么AA为Hermite矩阵;

如果AH=AA^H = - A,则AA为反Hermite矩阵。

Schur定理

任何一个nn阶复矩阵都酉相似于一个上三角矩阵,则存在一个nn阶酉矩阵UU和一个nn阶上三角矩阵RR使得:

UHAU=RU^HAU = R

其中RR的对角元是AA的特征值。

正规矩阵

ACn×nA \in C^{n\times n},如果:

AAH=AHAAA^H = A^HA

则称AA为正规矩阵。

可以证明,对角矩阵,Hermite矩阵,反Hermite矩阵,酉矩阵都是正规矩阵。

酉相似条件

nn阶矩阵AA酉相似于一个对角矩阵的充分必要条件为AA是正规矩阵。

因此,若AAnn阶Hermite矩阵,则AA必酉相似与实对角矩阵,即存在nn阶酉矩阵UU使得:

UHAU=ΛU^HAU = \Lambda

因为AH=AA^H = A,则ΛH=Λ\Lambda ^H = \Lambda,因此Λ\Lambda是实对角矩阵。

谱分解

Hermite的谱分解式

由上文可知,若AA为Hermite矩阵,则:

UHAU=ΛU^HAU = \Lambda

奇异值分解

奇异值定义

ACn×nA \in C^{n\times n},如果存在非负实数σ\sigma和非零向量uCn,vCmu\in C^n,v\in C^m,使得:

Au=σv,AHv=σuAu = \sigma v , A^H v = \sigma u

则称σ\sigmaAA的奇异值,uuvv分别称为AA对应于奇异值σ\sigma的右奇异向量和左奇异向量。

AHAu=σAHv=σ2uA^H A u = \sigma A^H v = \sigma ^2 u

因此σ2\sigma ^2AHAA^HA的特征值,也是AAHAA^H的特征值,而uuvv分别是AHAA^HAAAHAA^H对应于σ2\sigma ^2的特征向量。

引理

  1. ACm×nA \in C^{m\times n},则

    • rank(AHA)=rank(AAH)=rank(A)rank(A^HA) = rank(AA^H ) = rank(A)
  2. ACm×nA \in C^{m\times n},则

    • AHAA^HAAAHAA^H的特征值均为非负实数
    • AHAA^HAAAHAA^H的非零特征值相同,并且非零特征值个数等于rank(A)rank(A)

定理

  1. AA是正规矩阵,则AA的奇异值为AA的特征值的模。

  2. AAm×nm\times n矩阵,且rank(A)=rrank(A) = r,则存在mm阶酉矩阵UUnn阶酉矩阵VV使得:

    • UHAV=(000)U^H AV = \begin{pmatrix}\sum &0 \\\\0 & 0\end{pmatrix}

    • =diag(σ1,...,σr)\sum = diag(\sigma_1,...,\sigma_r),且σ1...σr>0\sigma_1 \ge ...\ge \sigma_r > 0为矩阵AA的奇异值

    • 这个式子就被称为奇异值分解。

证明

易得AHAA^HA为Hermite矩阵,AHAA^HA的特征值λ2λ2...>0\lambda^2\ge\lambda^2\ge...>0

由Schur定理可得,存在nn阶酉矩阵,使得:

UH(AHA)V=(2000)U^H(A^HA)V =\begin{pmatrix}\sum^2 &0 \\\\0 & 0\end{pmatrix}

VV分解为V=(V1,V2),V1=Cn×r,V2=Cn×(nr)V = (V_1,V_2),V_1 = C^{n\times r},V_2 = C^{n\times(n-r)}

重写上式为:

AHA(V1,V2)=(V1,V2)(2000)A^HA(V_1,V_2)= (V_1,V_2)\begin{pmatrix}\sum^2 &0 \\\\0 & 0\end{pmatrix}

{AHAV1=V12V1HAHAV1=2(AV11)H(AV11)=IAHAV2=0V2HAHAV2=0(AV2)H(AV2)=0\left \{ \begin{array}{c}A^HAV_1 = V_1 \sum^2 \Rightarrow V_1^HA^HAV_1 =\sum^2 \Rightarrow (AV_1\sum^{-1})^H (AV_1\sum^{-1}) = I\\ A^HAV_2 = 0 \Rightarrow V_2^HA^HAV_2 = 0 \Rightarrow (AV_2)^H(AV_2) =0\end{array}\right.

因此,AV2=0,U1=AV11,AV_2 = 0,U_1 = AV_1\sum^{-1},U1U_1是酉矩阵:U1HU1=IU_1^HU_1 = I

因此U1U_1的前rr列两两正交且为单位向量,将其扩充为CmC^m的标准正交基,U2=(ur+1,...,um)U_2 = (u_{r+1},...,u_m)

U=(U1,U2)U = (U_1,U_2)mm阶酉矩阵,U1HU1=I,U2HU1=0U_1^HU_1 = I,U_2^HU_1 = 0

UH(AHA)V=UH(AV1,AV2)=(U1HU2H)(U1,0)=(2000)U^H(A^HA)V = U^H (AV_1,AV_2) = \begin{pmatrix}U_1^H\\\\U_2^H \end{pmatrix} (U_1\sum,0) = \begin{pmatrix}\sum^2 &0 \\\\0 & 0\end{pmatrix}

因此:

A=U(2000)VHA = U\begin{pmatrix}\sum^2 &0 \\\\0 & 0\end{pmatrix} V^H

VVAHAA^HA的r个非零特征值对应的特征向量并单位化

UUAAHAA^H的r个非零特征值对应的特征向量并单位化

奇异值分解的几何意义

我们观察SVD这个式子:

A=UVTA = U\sum V^T

我们知道,若对一个向量乘以正交矩阵,相当于对其进行旋转变换(不改变长度和比例),而乘以一个对角矩阵,则相当于对其进行伸缩变换,因此,我们对线性变换XAXX \rightarrow AXXX为单位元上的点,其线性变化可以表示为:

p7

一般的,设秩为rrm×nm\times n矩阵AA有SVD:A=UVTA = U\sum V^T,从RnR^nRmR^m的线性变换XAXX \rightarrow AX可以看成是以下三步的复合:

  1. RnR^n中的旋转XVTXX \rightarrow V^TX

  2. RnR^n中的向量VTXV^TX的前rr个分量做伸缩,其余分量变为零:

    • VTXVTXV^TX \rightarrow \sum V^TX
  3. 再在RmR^m中做旋转VTXUVTX\sum V^TX \rightarrow U\sum V^TX

SVD的性质和本质

  1. 正交矩阵UU的前rr列是C(A)C(A)的一组标准正交基。

  2. 正交矩阵UU的后mrm-r列是N(AT)N(A^T)的一组标准正交基。

  3. 正交矩阵VV的前rr列是C(AT)C(A^T)的一组标准正交基。

  4. 正交矩阵VV的后nrn-r列是N(A)N(A)的一组标准正交基。

  5. λmax|\lambda|_{max}是矩阵的特征值的模长最大值,则:

    • σ1λmax,σ1aij\sigma_1 \ge |\lambda |_{max},\sigma_1 \ge |a_{ij}|

    • 即最大奇异值大于等于特征值模长的最大值,也大于等于矩阵的元素

  6. 矩阵AA列满秩 \Leftrightarrow AA的奇异值均非零

思考

  1. 对于正定对称矩阵而言,奇异值分解和对角化相同

  2. 特征值分解必须要求AA为方阵,而奇异值分解不需要

  3. AHAA^HAAAHAA^H的特征值为AA的奇异值的平方。

  4. 我们可以根据对AHAA^HAAAHAA^H求特征值和特征向量,从而得到VVUU\sum

results matching ""

    No results matching ""