凸优化深度指南

文档概述

凸优化是现代机器学习与统计推断的理论支柱。本指南系统介绍凸集与凸函数的基本理论、典型优化问题（LP、QP）、对偶理论与KKT条件、梯度下降法及其收敛性分析，以及各类一阶二阶优化方法。

关键词

序号	关键词	英文	核心概念
1	凸集	Convex Set	$\forall x, y \in C, θ \in [0, 1] : θ x + (1 - θ) y \in C$
2	凸函数	Convex Function	$f (θ x + (1 - θ) y) \leq θ f (x) + (1 - θ) f (y)$
3	线性规划	Linear Programming	$min c^{T} x s.t. A x \leq b$
4	二次规划	Quadratic Programming	$min \frac{1}{2} x^{T} Q x + c^{T} x s.t. A x \leq b$
5	KKT条件	Karush-Kuhn-Tucker	最优性的必要条件
6	对偶问题	Dual Problem	原问题的下界优化
7	梯度下降	Gradient Descent	$x_{k + 1} = x_{k} - η \nabla f (x_{k})$
8	收敛率	Convergence Rate	$O (1/ k), O (1/ k^{2}), exp (- k)$
9	Lipschitz连续	Lipschitz Continuity	$∥ f (x) - f (y) ∥ \leq L ∥ x - y ∥$
10	强凸	Strong Convexity	$f (x) - \frac{μ}{2} ∥ x ∥^{2}$ 凸
11	Frank-Wolfe	Frank-Wolfe Algorithm	线性约束优化的投影自由方法
12	拉格朗日	Lagrangian	$L (x, λ, ν) = f_{0} (x) + \sum λ_{i} f_{i} (x) + \sum ν_{j} h_{j} (x)$

一、凸集与凸函数

1.1 凸集的定义与性质

凸集：集合 $C \subseteq R^{n}$ 是凸的，当且仅当对任意 $x, y \in C$ 和 $θ \in [0, 1]$ ，有：

$θ x + (1 - θ) y \in C$

几何直观：凸集内任意两点的线段完全包含在集合内。

常见的凸集：

超平面： ${x : a^{T} x = b}$
半空间： ${x : a^{T} x \leq b}$
多面体：有限个半空间和超平面的交集
范数球： ${x : ∥ x ∥ \leq 1}$ （任意范数）
仿射集： ${x : A x = b}$
正象限： $R_{+}^{n}$

凸集的运算保凸性：

交集：凸集的交集仍是凸集
和：如果 $C_{1}, C_{2}$ 凸，则 $C_{1} + C_{2} = {x + y : x \in C_{1}, y \in C_{2}}$ 凸
仿射变换： $f (C) = {f (x) : x \in C}$ 保持凸性
透视变换：保持凸性

凸集示例

单位球 $B = {x : ∥ x ∥_{2} \leq 1}$ 是凸的

三角形的内部是凸的

圆盘（平面内）是凸的

环形区域 ${x : 1 \leq ∥ x ∥ \leq 2}$ 不是凸的（因为不包含原点到边界点的线段）

1.2 凸函数的定义

凸函数：函数 $f : R^{n} \to R \cup {+ \infty}$ 是凸的，当且仅当 $dom (f)$ 是凸集，且对任意 $x, y \in dom (f)$ 和 $θ \in [0, 1]$ ：

$f (θ x + (1 - θ) y) \leq θ f (x) + (1 - θ) f (y)$

几何意义：函数图像上任意弦线位于函数图像上方。

严格凸：若上述不等式在 $x \neq = y$ 和 $θ \in (0, 1)$ 时严格成立。

凹函数： $- f$ 是凸的。

Jensen不等式：凸函数的离散形式：对任意 $x_{1}, \dots, x_{k}$ 和 $θ_{i} \geq 0$ ， $\sum θ_{i} = 1$ ：

$f (\sum_{i} θ_{i} x_{i}) \leq \sum_{i} θ_{i} f (x_{i})$

1.3 凸函数的判别与性质

一阶条件：若 $f$ 可微，则 $f$ 凸当且仅当

$f (y) \geq f (x) + \nabla f (x)^{T} (y - x), \forall x, y$

即函数位于任一点切平面的上方（支持超平面性质）。

二阶条件：若 $f$ 二阶可微，则 $f$ 凸当且仅当其Hessian矩阵半正定：

$\nabla^{2} f (x) ⪰ 0, \forall x \in dom (f)$

常见的凸函数：

指数函数 $e^{a x}$
负对数 $- lo g x$ （在 $x > 0$ ）
范数 $∥ x ∥_{p}$ （任意 $p \geq 1$ ）
二次函数 $\frac{1}{2} x^{T} Q x + b^{T} x + c$ （ $Q ⪰ 0$ ）
最大函数 $max (x_{1}, \dots, x_{n})$
指数和函数 $lo g \sum_{i} e^{x_{i}}$ （log-sum-exp）

凸函数的重要性

凸优化问题的局部最优解即全局最优解。这一性质使得凸问题在理论上”容易”求解——只需找到局部最优即可。

二、典型优化问题

2.1 线性规划（LP）

线性规划的标准形式：

$min_{x} c^{T} x$ $s.t. A x = b$ $x \geq 0$

或不等式形式：

$min_{x} c^{T} x$ $s.t. A x \leq b$

线性规划的几何：目标函数定义一族平行超平面。约束定义一个多面体（凸集）。最优解出现在多面体的顶点。

单纯形法：通过在顶点间移动来寻找最优解，最坏情况指数时间，但实际中通常很快。

内点法：通过障碍函数在多面体内部移动，多项式时间复杂度。

diet problem（饮食问题）

最小化成本选择食物满足营养需求： $min \sum_{j} c_{j} x_{j} s.t. \sum_{j} a_{ij} x_{j} \geq b_{i}, x_{j} \geq 0$ 其中 $x_{j}$ 是食物 $j$ 的量， $c_{j}$ 是单价， $a_{ij}$ 是营养 $i$ 的含量， $b_{i}$ 是每日需求。

2.2 二次规划（QP）

二次规划：

$min_{x} \frac{1}{2} x^{T} Q x + c^{T} x$ $s.t. A x \leq b$

当 $Q ⪰ 0$ （半正定）时，问题为凸二次规划，全局最优可达。

等效于：最小二乘的正则化形式

$min_{x} ∥ A x - b ∥^{2} + λ ∥ x ∥^{2}$

KKT条件简化（无不等式约束时）：

$\nabla f (x) = Q x + c = 0 \Rightarrow x^{*} = - Q^{- 1} c$

2.3 二次约束二次规划（QCQP）

QCQP：

$min_{x} \frac{1}{2} x^{T} Q_{0} x + c_{0}^{T} x$ $s.t. \frac{1}{2} x^{T} Q_{i} x + c_{i}^{T} x + r_{i} \leq 0, i = 1, \dots, m$

当所有 $Q_{i} ⪰ 0$ 时，QCQP是凸问题。

二阶锥规划（SOCP） 是QCQP的推广：

$min_{x} f^{T} x$ $s.t. ∥ A_{i} x + b_{i} ∥_{2} \leq c_{i}^{T} x + d_{i}$

SOCP包含LP、QP和QCQP作为特例，在信号处理和鲁棒优化中广泛应用。

三、对偶理论与KKT条件

3.1 拉格朗日函数

考虑标准优化问题（原问题）：

$min_{x} f_{0} (x)$ $s.t. f_{i} (x) \leq 0, i = 1, \dots, m$ $h_{j} (x) = 0, j = 1, \dots, p$

拉格朗日函数：

$L (x, λ, ν) = f_{0} (x) + \sum_{i = 1}^{m} λ_{i} f_{i} (x) + \sum_{j = 1}^{p} ν_{j} h_{j} (x)$

其中 $λ_{i} \geq 0$ （不等式约束的乘子）， $ν_{j}$ （等式约束的乘子）。

3.2 拉格朗日对偶函数

对偶函数定义为拉格朗日函数关于 $x$ 的下确界：

$g (λ, ν) = in f_{x \in D} L (x, λ, ν)$

其中 $D = ⋂_{i} dom (f_{i}) \cap ⋂_{j} dom (h_{j})$ 。

对偶函数的性质（弱对偶性）：

$g (λ, ν) \leq p^{*}, \forall λ \geq 0, \forall ν$

即对偶函数给出原问题最优值 $p^{*}$ 的下界。

3.3 对偶问题

对偶问题（拉格朗日对偶）：

$max_{λ, ν} g (λ, ν)$ $s.t. λ \geq 0$

对偶问题的最优值记为 $d^{*}$ ，恒有 $d^{*} \leq p^{*}$ （弱对偶性）。

强对偶性：在某些条件下， $d^{*} = p^{*}$ 。这些条件包括：

Slater条件：存在严格可行的 $x$ （对于凸问题），即 $\exists x$ 使得 $f_{i} (x) < 0$ （而非 $\leq 0$ ）且 $A x = b$ 。
约束规范：如线性约束独立、KKT条件满足等。

3.4 KKT条件

对于最优解 $x^{*}$ 和对偶变量 $λ^{*}, ν^{*}$ ，KKT条件为：

原始可行性： $f_{i} (x^{*}) \leq 0$ ， $h_{j} (x^{*}) = 0$
对偶可行性： $λ_{i}^{*} \geq 0$
互补松弛： $λ_{i}^{*} f_{i} (x^{*}) = 0$
拉格朗日平稳性： $\nabla f_{0} (x^{*}) + \sum_{i} λ_{i}^{*} \nabla f_{i} (x^{*}) + \sum_{j} ν_{j}^{*} \nabla h_{j} (x^{*}) = 0$

KKT的意义

在强对偶性成立的条件下，KKT条件是 $x^{*}$ 为原问题最优解的充要条件。这使得我们可以将约束优化问题转化为解方程组。

几何解释：在最优解处，梯度 $\nabla f_{0} (x^{*})$ 可以表示为约束梯度的非负线性组合，且约束在边界处必须”夹住”梯度方向。

四、梯度下降与收敛性分析

4.1 梯度下降法

梯度下降是最基本的迭代优化方法：

$x_{k + 1} = x_{k} - η_{k} \nabla f (x_{k})$

其中 $η_{k} > 0$ 是步长（学习率）。

收敛性分析的基本假设：

Lipschitz连续梯度： $∥\nabla f (x) - \nabla f (y) ∥ \leq L ∥ x - y ∥$ ，即Hessian有界： $∥ \nabla^{2} f (x) ∥ \leq L$
步长选择：固定步长 $η \leq \frac{1}{L}$ 或随迭代变化

4.2 凸函数的收敛率

一般凸函数（Lipschitz连续）： $f (x_{k}) - f (x^{*}) \leq \frac{∥ x _{0} - x ^{*} ∥ ^{2}}{2 η k}$

取最优步长 $η = \frac{∥ x _{0} - x ^{*} ∥}{L k}$ ，得 $O (1/ k)$ 收敛率。

强凸函数：设 $f$ $μ$ -强凸，即 $f (x) - \frac{μ}{2} ∥ x ∥^{2}$ 凸。

取 $η = 1/ L$ ，则： $f (x_{k}) - f (x^{*}) \leq (1 - \frac{μ}{L})^{k} (f (x_{0}) - f (x^{*}))$

收敛率为 $O ((1 - \frac{μ}{L})^{k})$ ，即线性收敛。

条件数的影响

收敛速度依赖于条件数 $κ = L / μ$ 。条件数越大，收敛越慢。这解释了为什么预处理（preconditioning）可以加速优化。

4.3 非凸函数的收敛性

对于非凸函数，梯度下降保证：

梯度范数收敛到0： $∥\nabla f (x_{k}) ∥ \to 0$
收敛到稳定点（梯度为零的点），不一定是全局最优

在深度学习中，损失函数是非凸的，但梯度下降仍能有效找到好的局部最优解（实践中往往也接近全局最优）。

五、一阶与二阶优化方法

5.1 一阶方法

动量法（Momentum）： $v_{k + 1} = β v_{k} + \nabla f (x_{k})$ $x_{k + 1} = x_{k} - η v_{k + 1}$

动量累积历史梯度方向，加速收敛并减少震荡。Nesterov动量更激进：

$v_{k + 1} = β v_{k} + \nabla f (x_{k} - η v_{k})$

Adam（Adaptive Moment Estimation）： $m_{k} = β_{1} m_{k - 1} + (1 - β_{1}) \nabla f (x_{k}) （一阶矩）$ $v_{k} = β_{2} v_{k - 1} + (1 - β_{2}) (\nabla f (x_{k}))^{2} （二阶矩）$ $\overset{m}{^}_{k} = \frac{m _{k}}{1 - β _{1}^{k}}, \overset{v}{^}_{k} = \frac{v _{k}}{1 - β _{2}^{k}}$ $x_{k + 1} = x_{k} - η \frac{m ^ _{k}}{v ^ _{k} + ϵ}$

Adam自动调整每个参数的学习率，在实践中效果极佳。

5.2 二阶方法

牛顿法： $x_{k + 1} = x_{k} - (\nabla^{2} f (x_{k}))^{- 1} \nabla f (x_{k})$

牛顿法的收敛率：对于强凸函数，达到 $O (e^{- c k^{2}})$ （二次收敛），远超线性收敛。

但牛顿法的问题：

需要计算和存储Hessian矩阵（ $O (n^{2})$ 存储）
需要求解Hessian线性系统（ $O (n^{3})$ 计算）
Hessian可能不正定

拟牛顿法：用低秩矩阵逼近Hessian或其逆：

BFGS：逼近Hessian
L-BFGS：限制记忆的BFGS变体
OWL-QN：用于L1正则化问题

5.3 约束优化的投影方法

投影梯度法： $x_{k + 1} = Proj_{C} (x_{k} - η_{k} \nabla f (x_{k}))$

其中 $Proj_{C} (x) = ar g min_{y \in C} ∥ x - y ∥$ 是到凸集 $C$ 的投影。

对于简单约束（如箱约束 $x \in [l, u]$ ），投影有闭式解：

$Proj_{[l, u]} (x)_{i} = min (max (x_{i}, l_{i}), u_{i})$

六、Frank-Wolfe算法

6.1 算法描述

Frank-Wolfe算法（也称条件梯度法）是处理线性约束凸优化问题的投影自由方法：

初始化： $x_{0} \in D$

迭代：

线性最小化子问题：求解 $s_{k} = ar g min_{s \in D} \nabla f (x_{k})^{T} s$
步长计算： $γ_{k} = \frac{2}{k + 2}$ （或线搜索）
更新： $x_{k + 1} = (1 - γ_{k}) x_{k} + γ_{k} s_{k}$

6.2 与投影梯度法的对比

Frank-Wolfe的优势：

投影自由：只需解决线性最小化，而非投影到复杂集合
当 $D$ 是多面体时，线性最小化可能比投影更高效
稀疏解：解天然是原子的凸组合

Frank-Wolfe的劣势：

收敛速度较慢： $O (1/ k)$ 而非 $O (1/ k^{2})$
对于非多面体约束集合，线性最小化可能仍困难

SVM与Frank-Wolfe

支持向量机的对偶问题可以用Frank-Wolfe求解。线性最小化子问题退化为寻找支持向量，复杂度与活跃约束数成正比。

6.3 收敛性分析

对于强凸目标函数 $f$ ，Frank-Wolfe达到 $O (1/ k)$ 的收敛率：

$f (x_{k}) - f (x^{*}) \leq \frac{2 C _{f}}{k + 2}$

其中 $C_{f}$ 是与函数曲率相关的常数。

条件梯度滑动（Conditional Gradient Sliding）结合了Frank-Wolfe与Nesterov加速的思想，可以达到更好的收敛率。

参考文献

Boyd, S., & Vandenberghe, L. (2004). Convex Optimization. Cambridge University Press.
Nesterov, Y. (2018). Lectures on Convex Optimization (2nd ed.). Springer.
Bertsekas, D. P. (1999). Nonlinear Programming (2nd ed.). Athena Scientific.
Rockafellar, R. T. (1970). Convex Analysis. Princeton University Press.
Bottou, L., Curtis, F. E., & Nocedal, J. (2018). Optimization Methods for Large-Scale Machine Learning. SIAM Review, 60(2), 223-311.

人工智能知识库

探索

凸优化深度指南

凸优化深度指南

关键词

一、凸集与凸函数

1.1 凸集的定义与性质

1.2 凸函数的定义

1.3 凸函数的判别与性质

二、典型优化问题

2.1 线性规划（LP）

2.2 二次规划（QP）

2.3 二次约束二次规划（QCQP）

三、对偶理论与KKT条件

3.1 拉格朗日函数

3.2 拉格朗日对偶函数

3.3 对偶问题

3.4 KKT条件

四、梯度下降与收敛性分析

4.1 梯度下降法

4.2 凸函数的收敛率

4.3 非凸函数的收敛性

五、一阶与二阶优化方法

5.1 一阶方法

5.2 二阶方法

5.3 约束优化的投影方法

六、Frank-Wolfe算法

6.1 算法描述

6.2 与投影梯度法的对比

6.3 收敛性分析

参考文献

相关文档

关系图谱

目录