[凸分析] 一階可導凸函數利用單點近似必定低估

Theorem:
令 $f \in C^1$ 且 $f$ 為 convex on convex set $\Omega \subset \mathbb{R}^n$ 若且唯若對任意 $x,y \in \Omega$ 而言，
\[
f(y) \geq f(x) + \nabla f(x) \cdot (y-x)
\]其中 $\nabla f(x) \cdot (y-x) := \nabla f(x)^T (y-x)$

給出證明之前我們先給一些直觀上的看法：

Comments:
1. 上述定理算是相當直覺，簡而言之就是說 affine (in $y$) function：
$ f(x) + \nabla f(x) (y-x)$ 可以做為凸函數 $f$ 在 $x$ 點附近的 1 階 Taylor 近似，如下圖所示：

2. 注意到上述定理闡述的不等式對於所有 $x,y \in \Omega$ 都成立，也就是說透過對$x$ 一階 Taylor 近似必定低估，一般 $f(x) + \nabla f(x) (y-x)$ 又稱作 global underestimaotr of $f$。
3. 上述結果指出利用局部資訊 (一階導數) 可以得到全域資訊 (global understametor )。
4. 若 $\nabla f(x) = 0$ 則對任意 $y \in \Omega$，我們有
\[
f(y) \geq f(x)
\]亦即 $x$ 為全域及小點 (global minimizer) of $f$

以下我們給出證明

Proof: 先證明 $(\Rightarrow)$
令 $f \in C^1$ 且 $f$ 為 convex on convex set $\Omega \subset \mathbb{R}^n$，給定任意 $x,y \in \Omega$ ，我們要證
\[
f(y) \geq f(x) + \nabla f(x) (y-x)
\]
由於 $f$ 為 convex，令 $\alpha \in (0,1)$ 且定義
$$
z(\alpha) := \alpha x + (1-\alpha) y
$$則 $z(\alpha) \in \Omega$ 且由 $f$的凸性，我們有
\begin{align*}
f\left( {z(\alpha )} \right) &= f\left( {\alpha x + \left( {1 - \alpha } \right)y} \right) \hfill \\
&\leqslant \alpha f\left( x \right) + \left( {1 - \alpha } \right)f\left( y \right) \hfill \\
\end{align*} 由於 $\alpha \neq 0$ 我們可整理上式得到
\[\frac{{f\left( {\alpha x + \left( {1 - \alpha } \right)y} \right) - f\left( y \right)}}{\alpha } \leqslant f\left( x \right) - f\left( y \right)\]或者
\[\frac{{f\left( {y - \alpha \left( {y - x} \right)} \right) - f\left( y \right)}}{\alpha } \leqslant f\left( x \right) - f\left( y \right)\]取 $\alpha \to 0$，由於 $f\in C^1$ 我們不難看出上述不等式左方為沿著 $y-x$ 的方向導數，故我們有
\[
\nabla f(y) \cdot (y-x) \leq f(x) -f(y)
\]或者
\[
f(x) \geq f(y) + \nabla f(y) \cdot (y-x)
\]上述結果對任意 $x,y \in \Omega$ 成立，故我們將 $x,y$ 角色對換即得到定理要求的陳述。

接著我們證明$(\Leftarrow)$：
假設對任意 $x,y \in \Omega$ 而言，
\[
f(y) \geq f(x) + \nabla f(x) (y-x) \;\;\;\;\; (**)
\]我們要證明 $f$ 為 convex。故令 $x_1, x_2 \in \Omega$ 與 $\alpha \in [0,1]$ ，並且我們額外定義
\[
\bar{x} := \alpha x_1 + (1- \alpha) x_2
'\]
則由假設可知 $x_1, x_2, \bar{x}$ 必定滿足 $(**)$，我們可寫下
\[\begin{gathered}
f({x_1}) \geqslant f(\bar x) + \nabla f(\bar x)({x_1} - \bar x) \hfill \\
f({x_2}) \geqslant f(\bar x) + \nabla f(\bar x)({x_2} - \bar x) \hfill \\
\end{gathered} \]現在對上述第一條不等式兩邊同乘上 $\alpha$ ，對第二條不等式兩邊乘上 $1- \alpha$ ，亦即
\begin{align*}
& \alpha f({x_1}) \geqslant \alpha f(\bar x) + \alpha \nabla f(\bar x)({x_1} - \bar x) \hfill \\
&\left( {1 - \alpha } \right)f({x_2}) \geqslant \left( {1 - \alpha } \right)f(\bar x) + \left( {1 - \alpha } \right)\nabla f(\bar x)({x_2} - \bar x) \hfill \\
\end{align*}
現在觀察
\begin{align*}
\alpha f({x_1}) + \left( {1 - \alpha } \right)f({x_2}) &\geqslant \alpha f(\bar x) + \alpha \nabla f(\bar x)({x_1} - \bar x) \hfill \\
& \hspace{10mm}+ \left( {1 - \alpha } \right)f(\bar x) + \left( {1 - \alpha } \right)\nabla f(\bar x)({x_2} - \bar x)
\end{align*}
將上式稍微做一下整理可得
\begin{align*}
&\alpha f({x_1}) + \left( {1 - \alpha } \right)f({x_2}) \geqslant f(\bar x) + \nabla f(\bar x)\left( {\alpha ({x_1} - \bar x) + \left( {1 - \alpha } \right)({x_2} - \bar x)} \right) \hfill \\
&\Rightarrow \alpha f({x_1}) + \left( {1 - \alpha } \right)f({x_2}) \geqslant f(\bar x) + \nabla f(\bar x)\underbrace {\left( {\alpha {x_1} + \left( {1 - \alpha } \right){x_2} - \bar x} \right)}_{ = 0} \hfill \\
&\Rightarrow \alpha f({x_1}) + \left( {1 - \alpha } \right)f({x_2}) \geqslant f(\bar x) \hfill \\
\end{align*} 上述不等式表明 $f$ 為凸函數。$\square$

Comments:
1. 若 $f$ 為 $C^1$ strict convex 函數 on $\Omega$，則對任意 $x,y \in \Omega$ 而言，
\[
f(y) >f(x) + \nabla f(x) (y-x)
\]
2. 若 $f$ 為 concave 則利用 $-f$ 為 convex 特性可知對於 concave 函數而言，定理的不等式變成: 對任意 $x,y \in \Omega$ 而言，
\[
f(y) \leq f(x) + \nabla f(x) (y-x)
\]

謝宗翰的隨筆

搜尋此網誌

[凸分析] 一階可導凸函數利用單點近似必定低估

標籤

留言

張貼留言

這個網誌中的熱門文章

[數學分析] 什麼是若且唯若 "if and only if"

[數學分析] 淺談各種基本範數 (Norm)