凸集

仿射集合和凸集

仿射集合

  • 仿射集合p20{p_{20}}
    • 任意仿射集合可以表示为一个线性方程组的解集
  • 仿射组合
    • 可以将仿射集合表示为线性空间+偏移量
  • 仿射包p20{p_{20}}
    • 包含CC最小仿射集合,其中CC为任意集合
  • 仿射维数p21{p_{21}}
    • 集合CC的仿射维数为仿射包的维数
    • 定义集合CC相对内部为它相对于仿射包的内部,记做relintCrelint C
    • 可根据仿射维数定义相对边界clC/relintCcl C /relint C,此时clCclCCC的闭包

凸集

  • 对任意x1,x2Cx_1,x_2\in C,和满足0θ10\le \theta\le 1都有:
  • θx1+(1θ)x2C\theta x_1 +(1-\theta)x_2 \in C
  • 直观理解,集合中的每一点都可以被其他点沿着他们之间一条无阻碍的路径看见,那么这个集合就是凸集。
  • 可类似定义凸组合
    • 一个集合是凸集等价于集合包含所有点的凸组合
    • 点的凸组合可以看做是混合或加权平均
  • 凸包
    • 集合CC中所有点的凸组合的集合为凸包

  • 对于任意xCx\in Cθ0\theta \ge 0都有θxC\theta x \in C,则称集合CC为锥或者非负齐次
  • 在二维上为扇形,注意,锥一定包含原点
  • 可类似定义锥组合
  • 锥包p23{p_{23}}
    • 集合CC中所有点的锥组合的集合为锥包,是包含CC的最小凸锥

例子

  • 空集、单点集合、全空间都是仿射的。
  • 一条射线是凸的,但不是仿射的。
  • 若射线的基点是原点,则为凸锥。
  • 任意直线是仿射的,如果直线过原点,则为子空间(也是凸锥)。

超平面与半空间

  • 可看成法线方向为aa的超平面,而常数bb则决定了这个平面从原点的偏移
    • {xaTx=b}\{x | a^Tx=b\}
  • 超平面由所有正交于法向量aa的向量+偏移x0x_0组成。
    • {xaT(xx0)=0}\{x | a^T(x-x_0)=0\}
  • 一个超平面将RnR^n分为两个半空间p24{p_{24}}
    • 半空间是凸的,但不是仿射的

多面体

  • 为有限个线性等式和不等式的解集

    • P={xajTxbj,j=1,...,m,cjTx=dj,j=1,...,p}P = \{x| a_j^Tx\le b_j,j=1,...,m,c^T_jx= d_j,j=1,...,p\}
  • 可以用更紧凑的形式表示:

    • P={xAxb,Cx=d}P = \{x| Ax\preceq b,Cx= d \}
  • 单纯形式一类重要的多面体p29{p_{29}}

  • k+1k+1个点x0,...,vkRnx_0,...,v_k\in R^n仿射独立,即v1v0,...,vkv0v_1-v_0,...,v_k-v_0线性独立,那么这些点决定了一个单纯形:
    • C=conv{v0,...,vk}={θ0v0+...+θkvkθ0,1Tθ=1}C = conv\{v_0,...,v_k\} = \{\theta_0v_0+...+\theta_kv_k| \theta\succeq0,1^T\theta =1\}
    • 这个单纯形的仿射维数为kk,因此也称为RnR^n空间的kk维单纯形。
    • 单纯形有更容易理解的表达形式p29{p_{29}}

半正定锥

  • 我们用S+nS_{+}^n表示对称半正定矩阵的集合:
    • S+n={XSnX0}S_{+}^n = \{X\in S^n|X\succeq 0\}
  • 同样也可以表示对称正定集合S++nS_{++}^n
  • 很容易得到验证,集合S+nS_{+}^n是一个凸锥。
    • xT(θ1A+θ2B)x=θ1xTAx+θ2xTBx0x^T(\theta_1A+\theta_2B)x = \theta_1x^TAx + \theta_2x^TBx \ge 0

保凸运算

  • 除了介绍一些凸集之外,我们需要一些运算,这些运算能帮助我们构造更多的凸集。

交集

  • 交集运算时保凸的
  • 例如,每一个闭集是包含它的所有半空间的交集p32{p_{32}}

仿射函数p33{p_{33}}

  • 仿射函数具有如下形式;即为一个线性函数和常数的和:
    • f(x)=Ax+bf(x)= Ax+b
  • 因此,伸缩和平移是保凸的;
  • 一个凸集向它的几个坐标的投影是凸的(投影矩阵);
  • 笛卡尔积也是保凸的;
  • 凸集的部分和也是凸的;

线性分式和透视函数

透视函数

  • 定义P:Rn+1Rn,P(z,t)=z/tP: R^{n+1}\to R^n, P(z,t) = z/t为透视函数
  • 透视函数对向量进行伸缩(规范化),使得最后一维分量为1并舍弃
  • 一个凸集在透视函数下的原象也是凸的
  • 可以通过小孔成像的例子来解释p35{p_{35}}

线性分式

  • 线性分式函数由透视函数和仿射函数复合而成:
  • g(x)=(Ax+b,cTx+d)g(x) = (Ax+b,c^Tx+d)
  • f(x)=(Ax+b)/(cTx+d)f(x) = (Ax+b)/(c^Tx+d)
  • 其中g(x)g(x)为仿射函数,PP为透视函数,f=Pgf=P\odot g为线性分式函数

广义不等式

正常锥p38{p_{38}}

  • 我们定义KK为正常锥,如果它满足:
    • KK是凸的
    • KK是闭的
    • KK是实的,即具有非空内部
    • KK是尖的,即不包含直线
  • 可以使用正常锥来定义广义不等式,即为RnR^n上的偏序关系
    • xKyykKx\preceq_K y \Leftrightarrow y-k \in K
    • xKyykint(K)x\prec_K y \Leftrightarrow y-k \in int (K )
  • 广义不等式满足一般不等式的很多性质p39{p_{39}}但并不是一个线性序,也就是说,两点不一定能比

最小元和极小元

  • 一个集合可能有多个极大元和极小元p40{p_{40}}
  • 不一定有最小元,极小元定义为:
    • (xK)S={x}(x-K)\bigcap S =\{x\}
    • (xK)(x-K)表示可以与xx相比并且小于等于xx的所有元素

分离与支撑超平面

超平面分离定理p42{p_{42}}

  • 两个不相交的凸集,一定存在一个超平面能将其分开p42{p_{42}}
    • 设存在cC,dDc\in C,d\in D使得两个集合的距离最小,则:
    • f(x)=(dc)T(x(1/2)(d+c))f(x) = (d-c)^T(x-(1/2)(d+c))
  • 若在两个凸集中有aTx<b,aTx>ba^{T}x<b, a^{T}x\gt b则能够严格分离。

支撑超平面

  • x0x_0是边界上的一点,对于任意xx都满足aTxaTx0a^Tx\le a^Tx_0,则超平面{xaTx=aTx0}\{x| a^Tx = a^Tx_0\}为集合CC在点x0x_0处的支撑超平面。
  • 支撑超平面定理p46{p_{46}}
    • 对任意非空凸集和任意x0x_0,都存在支撑超平面
    • 如果一个集合是闭的,具有非空内部,并且其边界上每个点均存在支撑超平面,则它是凸的。

对偶锥和广义不等式

  • 定义KK的对偶锥为:
    • K={yxTy0,xK}K^\star = \{y| x^Ty\ge 0,\forall x\in K\}
  • 如论KK是否为凸锥,对偶锥KK^\star一定是凸的。
  • 我们之前根据正常锥定义了广义不等式和最小元,因此也可以对对偶锥定义同样的性质。

广义不等式的对偶

有两条重要性质,将广义不等式和对偶联系起来p48{p_{48}}

  • xKyx\preceq _K y 当且仅当对于任意λK0\lambda \succeq_{K^\star}0,有λTxλTy\lambda^T x \preceq\lambda^Ty
  • xKyx\prec_K y 当且仅当对于任意λK0\lambda \succeq_{K^\star}0λ0\lambda\ne0,有λTxλTy\lambda^Tx \prec\lambda^Ty

凸函数

基本性质

  1. domfdom f为为凸集,且对于任意x,ydomfx,y\in dom f和任意0θ10\le \theta\le1,有:

    f(θx+(1θ)y)θf(x)+(1θ)f(y)f(\theta x + (1-\theta)y) \le \theta f(x) + (1-\theta)f(y)

    ff是凸函数。

  2. 仿射函数既凸又凹

  3. ff为凸函数,则对于xdomfx \in dom f和任意vv,都有g(t)=f(x+tv)g(t) = f(x+tv)是凸的。这个性质非常有用:

    函数是凸的,当且仅当在其定义域相交的任何直线上都是凸的。

扩展值延伸

将凸函数在定义域外的值令为\infty,从而将这个凸函数延伸至全空间。

将延伸后的函数记为f~\tilde{f},因此可得:

f~(θx+(1θ)y)θf~(x)+(1θ)f~(y)\tilde{f}(\theta x + (1-\theta)y) \le \theta \tilde{f}(x) + (1-\theta)\tilde{f}(y)

一阶条件

假设ff可微,则函数是凸函数的充要条件是对于任意x,ydomfx,y\in dom f,都有:

f(y)f(x)+f(x)T(yx)f(y) \ge f(x) + \bigtriangledown f(x)^T(y-x)

其一阶Taylor近似是原函数的一个全局下估计

不等式从一个凸函数的局部信息可以得到全局信息,这可以得到凸优化问题的一些非常重要的信息:

例如,当f(x)=0\bigtriangledown f(x) = 0时,我们可以知道xx是函数ff 的全局极小点。

二阶条件

ff是凸函数的充要条件是其Hessian矩阵是半正定的。

对于RR上的函数,可以简化为f(x)0f''(x)\ge 0,可以理解为函数图像在点xx处有正向上的曲率。

注意,在判断函数凸性之前,其定义域是凸集这个前提条件必须满足。

例子p65{p_{65}}

  • 指数函数(eaxe^{ax})
  • 幂函数(xax^a
    • 绝对值幂函数(当p1p\ge 1时,xp|x|^p为凸函数)
  • 对数函数(logx\log x)为凹函数
  • 负熵xlogxx\log x
  • 范数
  • 最大值函数
  • 二次-线性分式函数(f(x,y)=x2/yf(x,y)=x^2/y
  • 几何平均是凹函数
    • f(x)=(i=1nxi)1/nf(x) = (\prod\limits_{i=1}^n x_i)^{1/n}
  • 对数行列式是凹函数
    • f(x)=logdetXf(x) = \log \det X

下水平集p69{p_{69}}

函数ffα\alpha-下水平集为:

Cα={xdomff(x)α}C_{\alpha} = \{x\in dom f| f(x) \le \alpha\}

对于任意α\alpha凸函数的下水平集依然为凸函数。

但反过来不一定成立:某个函数的所有下水平集都是凸集,但这个函数可能不是凸函数。

如果ff为凹函数,则α\alpha-上水平集也是凸集。

上镜图

函数ff的上镜图定义为:

epif={(x,t)xdomf,f(x)t}epi f =\{(x,t)| x\in dom f,f(x) \le t\}

一个函数是凸函数,当且仅当其上镜图是凸集。

一个函数是凹函数,当且仅当其亚图是凹集:

hypof={(x,t)tf(x)}hypo f = \{(x,t)|t\le f(x)\}

Jensen不等式p71{p_{71}}

若函数ff是凸函数,x1,...,xkdomfx_1,...,x_k \in dom fθ1,...,θk0\theta_1,...,\theta_k \ge 0且和为1,则下式成立:

f(θ1x1+...+θkxk)θ1f(x1)+...+θkf(xk)f(\theta_1x_1 + ... + \theta_k x_k)\le \theta_1f(x_1)+...+\theta_kf(x_k)

保凸运算p73{p_{73}}

以下运算后的函数依然为凸函数:

  • 非负加权求和
  • 复合仿射变换
  • 逐点最大和逐点上确界

    • 几乎所有凸函数都可以表示为一簇仿射函数的逐点上确界p77{p_{77}}
  • 标量(矢量)复合运算
  • 最小化函数
  • 透视函数(g(x,t)=tf(x/t)g(x,t) = tf(x/t))

共轭函数p85{p_{85}}

f(y)=supxdomf(yTxf(x))f^\star(y) = \sup_{x\in dom f}(y^Tx - f(x))

此函数称为ff的共轭函数;即差值yTxf(x)y^Tx - f(x)domfdom f所有上界构成了共轭函数的定义域

因为共轭函数是一系列仿射函数的逐点下确界,则ff^\star为凸函数。

重点掌握以下凸函数的共轭函数:

  • 负对数函数
  • 负熵函数f(x)=xlogxf(x) = x\log x
  • 严格凸的二次函数f(x)=12xTQxf(x) = \frac{1}{2}x^TQx
    • 其共轭函数为f(y)=12yTQ1yf^\star(y) = \frac{1}{2}y^TQ^{-1}y
  • 对数行列式
    • 其共轭函数为f(Y)=logdet(Y)1nf^\star(Y) = \log \det (-Y)^{-1} -n

Fenchel不等式p89{p_{89}}

从共轭函数的定义可以得到,对于任意的xxyy,有下列不等式成立:

f(x)+f(y)xTyf(x) + f^*(y) \ge x^Ty

拟凸函数p90{p_{90}}

函数ff称为拟凸函数,如果其定义域与及所有下水平集都是凸集

Sα={xdomff(x)α}S_{\alpha} = \{x \in dom f| f(x)\le \alpha\}

同样的,若f-f是拟凸函数,即所有上水平集都是凸集,则ff拟凹函数。

拟凸函数的函数图像最多只有一个“峰”,因此也被称为单峰函数

拟凸函数可能是凹函数,也有可能是不连续的。

基本性质

函数ff是拟凸函数的充要条件为:

对于任意x,ydomfx,y\in dom f,且0θ10\le \theta \le 1有:

f(θx+(1θ)y)max{f(x),f(y)}f(\theta x + (1-\theta)y) \le \max\{f(x),f(y)\}

即线段中的任何一点都不超过其端点函数值最大的那一个。

保拟凸运算p95{p_{95}}

  1. 非负加权最大
  2. 复合运算
  3. 最小化

对数-凸函数p98{p_{98}}

  1. 如果对于所有的xdomfx\in dom f都有f(x)>0f(x) > 0logf\log f是凸函数,则函数ff是对数-凸函数。

  2. 可以不使用对数来进行表达:

    若对于任意xxydomfy\in dom f0θ10\le \theta \le 1,有:

    f(θx+(1θy))f(x)θ+f(y)1θf(\theta x + (1-\theta y)) \ge f(x)^{\theta} + f(y)^{1-\theta}

    则函数为对数-凸的。

  3. 可以根据函数复合来得到对数-凸函数:

    如果函数是凸函数,则efe^f也是凸函数。

    因此,对数-凸函数是凸函数。

例子

  1. 仿射函数
  2. 幂函数
  3. 指数函数
  4. Gamma函数

results matching ""

    No results matching ""