Классы точек стационарности

Рассмотрим точки стационарности $\mathbf{w}^*$ , в которых градиент оптимизируемой функции становится в точности равным нулю:

\nabla L(\mathbf{w}^*) = 0

Мы минимизируем функцию потерь $L(\mathbf{w})$ по весам модели $\mathbf{w}\in\mathbb{R}^K$ :

L(\mathbf{w})\to\min_\mathbf{w}

Разложение Тейлора 2-го порядка [1] для $L(\mathbf{w})$ имеет вид:

L(\hat{\mathbf{w}})\approx L(\mathbf{w}) + \Delta \mathbf{w}^T \nabla L(\mathbf{w})+\frac{1}{2}\Delta \mathbf{w}^T \nabla^2 L(\mathbf{w}) \Delta \mathbf{w},

где

$\Delta \mathbf{w} = \hat{\mathbf{w}}-\mathbf{w}$ ;
$\nabla L(\mathbf{w})\in\mathbb{R}^K$ - градиент функции (вектор из частных производных по каждому весу);
$\nabla^2 L(\mathbf{w})\in\mathbb{R}^{K\times K}$ - матрица Гессе (Гессиан) из вторых производных $\left\{\frac{L(\hat{\mathbf{w}})}{\partial w_i\partial w_j}\right\}_{i,j}$ .

Если раскладывать функцию потерь в стационарной точке $\mathbf{w}^*$ , то разложение Тейлора [1] примет вид:

L(\hat{\mathbf{w}})\approx L(\mathbf{w}^*)+\frac{1}{2}\Delta \mathbf{w}^T \nabla^2 L(\mathbf{w}^*) \Delta \mathbf{w}, \tag{2}

Гессиан, будучи симметричной матрицей, имеет ортонормированный базис из собственных векторов $\mathbf{u}_1,...\mathbf{u}_K$ с собственными значениями $\lambda_1,...\lambda_K$ [2]:

\nabla^2 L(\mathbf{w}^*) \mathbf{u}_i = \lambda_i \mathbf{u}_i,\quad i=1,2,....K,

\mathbf{u}_i^T \mathbf{u}_j = \begin{cases} 1, \text{ если } i=j, \\ 0, \text{ если } i\ne j. \end{cases}

Разложим $\Delta \mathbf{w} = \hat{\mathbf{w}}-\mathbf{w}^*$ по базису из собственных векторов:

\Delta \mathbf{w} = \sum_k \alpha_k \mathbf{u}_k

Подставив это разложение в (2), получим:

\begin{aligned} L(\hat{\mathbf{w}})-L(\mathbf{w}^*)&\approx\frac{1}{2}\left(\sum_k \alpha_k \mathbf{u}_k\right)^T \nabla^2 L(\mathbf{w}^*) \left(\sum_k \alpha_k \mathbf{u}_k\right) \\ &=\frac{1}{2}\left(\sum_k \alpha_k \mathbf{u}_k\right)^T \left(\sum_k \alpha_k \lambda_k \mathbf{u}_k\right) \\ &=\frac{1}{2}\sum_k \lambda_k \alpha_k^2 \end{aligned}

Отсюда видно, что точка стационарности $\mathbf{w}^*$ может являться:

точкой минимума, когда все $\lambda_i$ положительны (Гессиан - положительно определённая матрица);
точкой максимума, когда все $\lambda_i$ отрицательны (Гессиан - отрицательно определённая матрица);
точкой перегиба, когда часть собственных значений положительна, а часть отрицательна.

Точки перегиба часто возникают при минимизации невыпуклых функций и затрудняют работу градиентных методов оптимизации, поскольку градиент в их окрестности становится малым, и обучение происходит медленно. Чтобы с этим бороться, нужно использовать методы оптимизации с инерцией - методы SGD+momentum или Adam.

Классы точек стационарности

Литература​

Литература