Гессиан функции

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

Гессиан функции — симметрическая квадратичная форма[1], описывающая поведение функции во втором порядке.

Для функции [math]\displaystyle{ f }[/math], дважды дифференцируемой в точке [math]\displaystyle{ x\in \R^n }[/math]

[math]\displaystyle{ H(x) = \sum_{i=1}^n \sum_{j=1}^n a_{ij} x_i x_j }[/math]

или

[math]\displaystyle{ H(z) = \sum_{i=1}^n \sum_{j=1}^n a_{ij} z_i \overline{z}_j }[/math]

где [math]\displaystyle{ a_{ij}=\partial^2 f/\partial x_i \partial x_j }[/math] (или [math]\displaystyle{ a_{ij}=\partial^2 f/\partial z_i \partial \overline{z}_j }[/math]) и функция [math]\displaystyle{ f }[/math] задана на [math]\displaystyle{ n }[/math]-мерном вещественном пространстве [math]\displaystyle{ \mathbb{R}^n }[/math] (или комплексном пространстве [math]\displaystyle{ \mathbb{C}^n }[/math]) с координатами [math]\displaystyle{ x_1,\ldots,x_n }[/math] (или [math]\displaystyle{ z_1,\ldots,z_n }[/math]). В обоих случаях гессиан — квадратичная форма, заданная на касательном пространстве, не меняющаяся при линейных преобразованиях переменных. Гессианом также часто называют и определитель матрицы [math]\displaystyle{ (a_{ij}), }[/math] см. ниже.

Матрица Гессе

Матрица этой квадратичной формы образована вторыми частными производными функции. Если все производные существуют, то

[math]\displaystyle{ H(f) = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\,\partial x_n} \\ \\ \frac{\partial^2 f}{\partial x_2\,\partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2\,\partial x_n} \\ \\ \vdots & \vdots & \ddots & \vdots \\ \\ \frac{\partial^2 f}{\partial x_n\,\partial x_1} & \frac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix} }[/math]

Определитель этой матрицы называется определителем Гессе, или просто гессианом[источник не указан 4372 дня].

Матрицы Гессе используются в задачах оптимизации методом Ньютона. Полное вычисление матрицы Гессе может быть затруднительно, поэтому были разработаны квазиньютоновские алгоритмы, основанные на приближённых выражениях для матрицы Гессе. Наиболее известный из них — алгоритм Бройдена — Флетчера — Гольдфарба — Шанно.

Симметрия матрицы Гессе

Смешанные производные функции f — это элементы матрицы Гессе, стоящие не на главной диагонали. Если они непрерывны, то порядок дифференцирования не важен:

[math]\displaystyle{ \frac {\partial}{\partial x_i} \left( \frac { \partial f }{ \partial x_j} \right) = \frac {\partial}{\partial x_j} \left( \frac { \partial f }{ \partial x_i} \right) }[/math]

Это можно также записать как

[math]\displaystyle{ f_{x_i x_j} = f_{x_j x_i}, \quad \forall i,j \in \{1,\ldots, n\}. }[/math]

В этом случае матрица Гессе симметрична.

Критические точки функции

Если градиент [math]\displaystyle{ f }[/math] (её векторная производная) равен нулю в некоторой точке [math]\displaystyle{ x_0 }[/math], то эта точка называется критической. Достаточным условием существования экстремума в этой точке является знакоопределённость гессиана f (понимаемого в данном случае как квадратичная форма), а именно:

  • если гессиан положительно определён, то [math]\displaystyle{ x_0 }[/math] — точка локального минимума функции [math]\displaystyle{ f(x) }[/math],
  • если гессиан отрицательно определён, то [math]\displaystyle{ x_0 }[/math] — точка локального максимума функции [math]\displaystyle{ f(x) }[/math],
  • если гессиан не является знакоопределённым (принимает как положительные, так и отрицательные значения) и невырожден [math]\displaystyle{ (\det H(f) \neq 0) }[/math], то [math]\displaystyle{ x_0 }[/math] — седловая точка функции [math]\displaystyle{ f(x) }[/math].

Вариации и обобщения

Вектор-функции

Если [math]\displaystyle{ f }[/math] — вектор-функция, то есть

[math]\displaystyle{ f = (f_1, f_2, \dots, f_n), }[/math]

то её вторые частные производные образуют не матрицу, а тензор ранга 3, который можно рассматривать как массив из [math]\displaystyle{ n }[/math] матриц Гессе:

[math]\displaystyle{ H(f) = \left( H(f_1), \ldots, H(f_n) \right). }[/math]

При [math]\displaystyle{ n = 1 }[/math] данный тензор вырождается в обычную матрицу Гессе.

Окаймлённый гессиан

При решении задачи нахождения условного экстремума функции [math]\displaystyle{ f: \mathbb{R}^n \rightarrow \mathbb{R} }[/math] с ограничениями

[math]\displaystyle{ \left\{ \begin{array}{c} g_1(x) = 0, \\ \vdots \\ g_m(x) = 0, \end{array} \right. }[/math]

где [math]\displaystyle{ x \in \mathbb{R}^n }[/math], [math]\displaystyle{ m \lt n }[/math], для проверки достаточных условий экстремума можно использовать так называемый окаймлённый гессиан функции Лагранжа [math]\displaystyle{ L(x,\lambda) }[/math], который будет иметь вид[2]

[math]\displaystyle{ \left( \begin{array}{cc} \dfrac{\partial^2 L}{\partial x^2} &\dfrac{\partial^2 L}{\partial x \partial \lambda} \\ \left( \dfrac{\partial^2 L}{\partial x \partial \lambda} \right)^\mathrm{T} &\dfrac{\partial^2 L}{\partial \lambda^2} \end{array} \right) = \left( \begin{array}{cccccc} \dfrac{\partial^2 L}{\partial x_1^2} &\ldots &\dfrac{\partial^2 L}{\partial x_1 \partial x_n} &\dfrac{\partial g_1}{\partial x_1} &\ldots &\dfrac{\partial g_m}{\partial x_1} \\ \vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\ \dfrac{\partial^2 L}{\partial x_n \partial x_1} &\ldots &\dfrac{\partial^2 L}{\partial x_n^2} &\dfrac{\partial g_1}{\partial x_n} &\ldots &\dfrac{\partial g_m}{\partial x_n} \\ \dfrac{\partial g_1}{\partial x_1} &\ldots &\dfrac{\partial g_1}{\partial x_n} &0 &\ldots &0 \\ \vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\ \dfrac{\partial g_m}{\partial x_1} &\ldots &\dfrac{\partial g_m}{\partial x_n} &0 &\ldots &0 \end{array} \right). }[/math]

Проверка достаточных условий экстремума заключается в вычислении знаков детерминантов определённого набора подматриц окаймлённого гессиана. Именно, если существуют [math]\displaystyle{ x^* \in \mathbb{R}^n }[/math] и [math]\displaystyle{ \lambda^* \in \mathbb{R}^m }[/math] такие, что [math]\displaystyle{ \nabla L(x^*,\lambda^*) = 0 }[/math] и

[math]\displaystyle{ (-1)^m \mbox{det} \left( \begin{array}{cccccc} \dfrac{\partial^2 L}{\partial x_1^2} &\ldots &\dfrac{\partial^2 L}{\partial x_1 \partial x_p} &\dfrac{\partial g_1}{\partial x_1} &\ldots &\dfrac{\partial g_m}{\partial x_1} \\ \vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\ \dfrac{\partial^2 L}{\partial x_p \partial x_1} &\ldots &\dfrac{\partial^2 L}{\partial x_p^2} &\dfrac{\partial g_1}{\partial x_p} &\ldots &\dfrac{\partial g_m}{\partial x_p} \\ \dfrac{\partial g_1}{\partial x_1} &\ldots &\dfrac{\partial g_1}{\partial x_p} &0 &\ldots &0 \\ \vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\ \dfrac{\partial g_m}{\partial x_1} &\ldots &\dfrac{\partial g_m}{\partial x_p} &0 &\ldots &0 \end{array} \right) \gt 0 }[/math]

для [math]\displaystyle{ p = m+1,\ldots,n }[/math], то в точке [math]\displaystyle{ x^* }[/math] функция [math]\displaystyle{ f }[/math] имеет строгий условный минимум. Если же

[math]\displaystyle{ (-1)^p \mbox{det} \left( \begin{array}{cccccc} \dfrac{\partial^2 L}{\partial x_1^2} &\ldots &\dfrac{\partial^2 L}{\partial x_1 \partial x_p} &\dfrac{\partial g_1}{\partial x_1} &\ldots &\dfrac{\partial g_m}{\partial x_1} \\ \vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\ \dfrac{\partial^2 L}{\partial x_p \partial x_1} &\ldots &\dfrac{\partial^2 L}{\partial x_p^2} &\dfrac{\partial g_1}{\partial x_p} &\ldots &\dfrac{\partial g_m}{\partial x_p} \\ \dfrac{\partial g_1}{\partial x_1} &\ldots &\dfrac{\partial g_1}{\partial x_p} &0 &\ldots &0 \\ \vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\ \dfrac{\partial g_m}{\partial x_1} &\ldots &\dfrac{\partial g_m}{\partial x_p} &0 &\ldots &0 \end{array} \right) \gt 0 }[/math]

для [math]\displaystyle{ p = m+1,\ldots,n }[/math], то в точке [math]\displaystyle{ x^* }[/math] функция [math]\displaystyle{ f }[/math] имеет строгий условный максимум[3].

История

Понятие введено Людвигом Отто Гессе (1844), который использовал другое название. Термин «гессиан» был введён Джеймсом Джозефом Сильвестром.

См. также

Примечания

  1. Гессиан. Дата обращения: 2 апреля 2016. Архивировано 15 апреля 2016 года.
  2. Hallam, Arne Econ 500: Quantitative Methods in Economic Analysis I. Iowa State (7 октября 2004). Дата обращения: 14 апреля 2021. Архивировано 19 апреля 2021 года.
  3. Neudecker, Heinz. Matrix Differential Calculus with Applications in Statistics and Econometrics / Heinz Neudecker, Jan R. Magnus. — New York : John Wiley & Sons, 1988. — P. 136. — ISBN 978-0-471-91516-4.

Ссылки

  • Камынин Л.И. Математический анализ. Т. 1, 2. - 2001.
  • Кудрявцев Л.Д «Краткий курс математического анализа. Т.2. Дифференциальное и интегральное исчисления функций многих переменных. Гармонический анализ», ФИЗМАТЛИТ, 2002, — 424 с. — ISBN 5-9221-0185-4. Или любое другое издание.
  • Голубицкий М., Гийемин В. Устойчивые отображения и их особенности, — М.: Мир, 1977.