Метод максимального правдоподобия
Ме́тод максима́льного правдоподо́бия или метод наибольшего правдоподобия (ММП, ML, MLE — англ. maximum likelihood estimation) в математической статистике — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия[1]. Основан на предположении о том, что вся информация о статистической выборке содержится в функции правдоподобия.
Метод максимального правдоподобия был проанализирован, рекомендован и значительно популяризирован Р. Фишером между 1912 и 1922 годами (хотя ранее он был использован Гауссом, Лапласом и другими).
Оценка максимального правдоподобия является популярным статистическим методом, который используется для создания статистической модели на основе данных и обеспечения оценки параметров модели.
Метод максимального правдоподобия соответствует многим известным методам оценки в области статистики. Например, вы интересуетесь таким антропометрическим параметром, как рост жителей России. Предположим, у вас имеются данные о росте некоторого количества людей, а не всего населения. Кроме того, предполагается, что рост является нормально распределённой величиной с неизвестной дисперсией и средним значением. Среднее значение и дисперсия роста в выборке являются максимально правдоподобными к среднему значению и дисперсии всего населения.
Для фиксированного набора данных и базовой вероятностной модели, используя метод максимального правдоподобия, мы получим значения параметров модели, которые делают данные «более близкими» к реальным. Оценка максимального правдоподобия даёт уникальный и простой способ определить решения в случае нормального распределения.
Метод оценки максимального правдоподобия применяется для широкого круга статистических моделей, в том числе:
- линейные модели и обобщённые линейные модели;
- факторный анализ;
- моделирование структурных уравнений;
- многие ситуации, в рамках проверки гипотезы и доверительного интервала формирования;
- дискретные модели выбора.
Сущность метода
Пусть есть выборка [math]\displaystyle{ X_1,\ldots,X_n }[/math] из распределения [math]\displaystyle{ \mathbb{P}_{\theta} }[/math], где [math]\displaystyle{ \theta \in \Theta }[/math] — неизвестные параметры. Пусть [math]\displaystyle{ L(\mathbf{x} \mid \theta)\colon \Theta \to \mathbb{R} }[/math] — функция правдоподобия, где [math]\displaystyle{ \mathbf{x} \in \mathbb{R}^n }[/math]. Точечная оценка
- [math]\displaystyle{ \hat{\theta}_{\mathrm{M\Pi}} = \hat{\theta}_{\mathrm{M\Pi}} (X_1,\ldots, X_n) = \mathop{\rm argmax}\limits_{\theta \in \Theta} L(X_1 ,\ldots, X_n \mid \theta ) }[/math]
называется оце́нкой максима́льного правдоподо́бия параметра [math]\displaystyle{ \theta }[/math]. Таким образом оценка максимального правдоподобия — это такая оценка, которая максимизирует функцию правдоподобия при фиксированной реализации выборки.
Часто вместо функции правдоподобия [math]\displaystyle{ L }[/math] используют логарифмическую функцию правдоподобия [math]\displaystyle{ l=\ln L }[/math]. Так как функция [math]\displaystyle{ x \to \ln x,\; x \gt 0 }[/math] монотонно возрастает на всей области определения, максимум любой функции [math]\displaystyle{ L(\theta) }[/math] является максимумом функции [math]\displaystyle{ \ln L(\theta) }[/math] и наоборот. Таким образом,
- [math]\displaystyle{ \hat{\theta}_{\mathrm{M\Pi}} = \mathop{\rm argmax}\limits_{\theta \in \Theta} l(X_1 ,\ldots, X_n \mid \theta ) }[/math],
Если функция правдоподобия дифференцируема, то необходимое условие экстремума — равенство нулю её градиента:
- [math]\displaystyle{ g(\theta)=\frac {\partial l(\mathbf{x},\theta_0)}{\partial \theta}=0 }[/math]
Достаточное условие экстремума может быть сформулировано как отрицательная определённость гессиана — матрицы вторых производных:
- [math]\displaystyle{ H=\frac {\partial^2 l(\mathbf{x},\theta_0)}{\partial \theta \partial \theta^T} }[/math]
Важное значение для оценки свойств оценок метода максимального правдоподобия играет так называемая информационная матрица, равная по определению:
- [math]\displaystyle{ I(\theta)=E[g(\theta)g(\theta)^T] }[/math]
В оптимальной точке информационная матрица совпадает с математическим ожиданием гессиана, взятым со знаком минус:
- [math]\displaystyle{ I=-E(H_0) }[/math]
Свойства
- Оценки максимального правдоподобия, вообще говоря, могут быть смещёнными (см. примеры), но являются состоятельными, асимптотически эффективными и асимптотически нормальными оценками. Асимптотическая нормальность означает, что
- [math]\displaystyle{ \sqrt {n}(\hat{\theta}-\theta) \xrightarrow d N(0,\boldsymbol{I}^{-1}_{\infty}) }[/math]
где [math]\displaystyle{ \boldsymbol{I}_{\infty}=-\lim_{n \rightarrow \infty} \frac {1}{n} \mathbb{E}(\boldsymbol{H}) }[/math] — асимптотическая информационная матрица.
Асимптотическая эффективность означает, что асимптотическая ковариационная матрица [math]\displaystyle{ \boldsymbol{I}^{-1}_{\infty} }[/math] является нижней границей для всех состоятельных асимптотически нормальных оценок.
- Если [math]\displaystyle{ \hat{\theta} }[/math] — оценка метода максимального правдоподобия, параметров [math]\displaystyle{ \theta }[/math], то [math]\displaystyle{ g(\hat{\theta}) }[/math] является оценкой максимального правдоподобия для [math]\displaystyle{ g(\theta) }[/math], где g — непрерывная функция (функциональная инвариантность). Таким образом, законы распределения данных можно параметризовать различным образом.
- Также необходимым условием МП-оценок является выполнение системы вида:
- [math]\displaystyle{ \left\{\begin{matrix} \frac{\partial}{\partial\theta_1}\ln{L_n}\left( \vec{x},\vec{\theta}\right) & = & 0 \\ \cdots & \cdots & \\ \frac{\partial}{\partial\theta_k}\ln{L_n}\left( \vec{x},\vec{\theta}\right) & = & 0 \\ \end{matrix}\right. }[/math]
- где [math]\displaystyle{ L_n\left( \vec{x},\vec{\theta}\right) = \prod_{i = 1}^{n}L_1\left( x_i,\vec{\theta}\right) }[/math] — функция правдоподобия выборки [math]\displaystyle{ \vec{x} }[/math] объёма [math]\displaystyle{ n }[/math]
Примеры
- Пусть [math]\displaystyle{ X_1,\ldots, X_n \sim \mathrm{U}[0,\theta] }[/math] — независимая выборка из непрерывного равномерного распределения на отрезке [math]\displaystyle{ [0,\theta] }[/math], где [math]\displaystyle{ \theta \gt 0 }[/math] — неизвестный параметр. Тогда функция правдоподобия имеет вид
- [math]\displaystyle{ f(\mathbf{x} \mid \theta ) = \begin{cases} \frac{1}{\theta^n}, & \mathbf{x} \in [0,\theta]^n \subset \mathbb{R}^n \\ 0, & \mathbf{x} \not\in [0,\theta]^n \end{cases} . }[/math]
Последнее равенство может быть переписано в виде:
- [math]\displaystyle{ f(\mathbf{x} \mid \theta ) = \begin{cases} \frac{1}{\theta^n}, & \theta \ge \max(x_1,\ldots,x_n) \\ 0, & \theta \lt \max(x_1,\ldots,x_n) \end{cases} , }[/math]
где [math]\displaystyle{ \mathbf{x} = (x_1,\ldots,x_n)^{\top} }[/math], откуда видно, что своего максимума функция правдоподобия достигает в точке [math]\displaystyle{ \theta = \max(x_1,\ldots,x_n) }[/math]. Таким образом
- [math]\displaystyle{ \hat{\theta}_{\mathrm{M\Pi}} = \max(X_1,\ldots, X_n) }[/math].
Такая оценка будет смещенной: [math]\displaystyle{ P\{\max(X_1,\ldots, X_n) \le x \}= \left(\frac{x}{\theta}\right)^n }[/math], откуда [math]\displaystyle{ E\hat{\theta}_{\mathrm{M\Pi}} = \int_0^\theta x d\left(\frac{x}{\theta}\right)^n = \frac{n}{n+1}\theta }[/math]
- Пусть [math]\displaystyle{ X_1,\ldots,X_n \sim \mathrm{N}(\mu,\sigma^2) }[/math] — независимая выборка из нормального распределения с неизвестными средним и дисперсией. Построим оценку максимального правдоподобия [math]\displaystyle{ \left(\widehat{\mu}_{\mathrm{M\Pi}}, \widehat{\sigma^2}_{\mathrm{M\Pi}}\right)^{\rm T} }[/math] для неизвестного вектора параметров [math]\displaystyle{ \left(\mu,\sigma^2\right)^{\rm T} }[/math]. Логарифмическая функция правдоподобия принимает вид
- [math]\displaystyle{ L(\mathbf{x} \mid\mu, \sigma^2) = - \frac{n}{2} \ln (2 \pi \sigma^2) - \frac{1}{2\sigma^2} \sum\limits_{i=1}^n (X_i - \mu)^2 }[/math].
Чтобы найти её максимум, приравняем к нулю частные производные:
- [math]\displaystyle{ \left\{ \begin{matrix} \displaystyle \frac{\partial}{\partial \mu} L(\mathbf{x} \mid \mu, \sigma^2 ) = 0 \\[10pt] \displaystyle \frac{\partial}{\partial \sigma^2} L(\mathbf{x} \mid \mu, \sigma^2 ) = 0 \\ \end{matrix} \right. \Rightarrow \left\{ \begin{matrix} \displaystyle \frac{ \sum\limits_{i=1}^n X_i - n \mu}{\sigma^2} = 0 \\[10pt] \displaystyle -\frac{n}{2 \sigma^2} +\frac{\sum\limits_{i=1}^n (X_i - \mu)^2}{2 \left(\sigma^2\right)^2} = 0 \\ \end{matrix} \right., }[/math]
откуда
- [math]\displaystyle{ \hat{\mu}_{\mathrm{M\Pi}} = \overline{X} }[/math] — выборочное среднее, а
- [math]\displaystyle{ \widehat{\sigma^2}_{\mathrm{M\Pi}} = S^2_n }[/math] — выборочная дисперсия.
Применение метода[2]
Обработка эксперимента
Предположим, что мы измеряем некоторую величину [math]\displaystyle{ a }[/math]. Сделав одно измерение, получили её значение [math]\displaystyle{ x_1 }[/math] с ошибкой [math]\displaystyle{ \sigma_1 }[/math]: [math]\displaystyle{ x_1 \pm \sigma_1 }[/math]. Запишем плотность вероятности того, что величина [math]\displaystyle{ a }[/math] примет значение [math]\displaystyle{ x_1 }[/math]:
[math]\displaystyle{ W(a) = \frac{1}{\sqrt{2\pi\sigma_1^2}} \exp \left[-\frac{(x_1 - a)^2}{2\sigma_1^2}\right] }[/math].
Теперь предположим, что мы провели несколько таких измерений и получили [math]\displaystyle{ x_1 \pm \sigma_1, x_2 \pm \sigma_2 \ldots x_n \pm \sigma_n }[/math]. Плотность вероятности того, что величина [math]\displaystyle{ a }[/math] примет значения [math]\displaystyle{ x_1, x_2 \ldots x_n }[/math], будет:
[math]\displaystyle{ W(a) = \prod^n_{i=1} {\frac{1}{\sqrt{2\pi\sigma_i^2}} \exp \left[-\frac{(x_i - a)^2}{2\sigma_i^2}\right]} }[/math].
Эта функция называется функцией правдоподобия. Наиболее вероятное значение измеряемой величины [math]\displaystyle{ a^* }[/math] определяется по максимуму функции правдоподобия. Более удобной является логарифмическая функция правдоподобия:
[math]\displaystyle{ L(a) = \ln W(a) = - \sum_{i=1}^n {\frac{(x_i - a)^2}{2\sigma_i^2}} + \sum_{i=1}^n {\ln{\frac{1}{\sqrt{2\pi\sigma_i^2}}}} }[/math].
Продифференцируем логарифмическую функцию правдоподобия по [math]\displaystyle{ a }[/math]:
[math]\displaystyle{ \frac{\partial{L}}{\partial{a}} = \sum_{i=1}^n {\frac{x_i - a}{\sigma_i^2}} }[/math].
Приравняем [math]\displaystyle{ \frac{\partial{L}}{\partial{a}} }[/math] к [math]\displaystyle{ 0 }[/math] и получим некоторое значение [math]\displaystyle{ a = a^* }[/math]:
[math]\displaystyle{ a^* = \frac{\sum\limits^{n}_{i=1} {\frac{x_i}{\sigma_i^2}}}{\sum\limits^{n}_{i=1} {\frac{1}{\sigma_i^2}}} }[/math].
Крамер сформулировал следующую теорему:
Теорема: Не существует другого метода обработки результатов эксперимента, который дал бы лучшее приближение к истине, чем метод максимального правдоподобия.
Ошибки измерений
Предположим, что мы провели серию измерений и получили серию значений [math]\displaystyle{ a^* }[/math], естественно записать, что это распределение будет иметь гауссовский вид:
[math]\displaystyle{ W(a) = \frac{1}{\sqrt{2\pi\sigma_{a^*}^2}} \exp \left[-\frac{(a^* - a)^2}{2\sigma_{a^*}^2}\right] }[/math].
Запишем логарифмическую функцию правдоподобия:[math]\displaystyle{ L(a) = \ln W(a) = -{\frac{(a^* - a)^2}{2\sigma_{a^*}^2}} + {\ln{\frac{1}{\sqrt{2\pi\sigma_{a^*}^2}}}} }[/math].
Возьмем первую производную:
[math]\displaystyle{ \frac{\partial{L}}{\partial{a}} = \frac{a^* - a}{\sigma_{a^*}^2} }[/math].
Если [math]\displaystyle{ \frac{\partial{L}}{\partial{a}} = 0 }[/math] , то [math]\displaystyle{ a = a^* }[/math]. Теперь возьмем вторую производную:
[math]\displaystyle{ \frac{\partial^2{L}}{\partial{a}^2} = -\frac{1}{\sigma_{a^*}^2} }[/math], откуда
[math]\displaystyle{ \sigma_{a^*} = \left(-\frac{\partial^2{L}}{\partial{a}^2} \Big|_{a = a^*} \right)^{-1/2} }[/math].
Это называется первой магической формулой[2].
Условный метод максимального правдоподобия
Условный метод максимального правдоподобия (Conditional ML) используется в регрессионных моделях. Суть метода заключается в том, что используется не полное совместное распределение всех переменных (зависимой и регрессоров), а только условное распределение зависимой переменной по факторам, то есть фактически распределение случайных ошибок регрессионной модели. Полная функция правдоподобия есть произведение «условной функции правдоподобия» и плотности распределения факторов. Условный ММП эквивалентен полному варианту ММП в том случае, когда распределение факторов никак не зависит от оцениваемых параметров. Это условие часто нарушается в моделях временных рядов, например в авторегрессионной модели. В данном случае, регрессорами являются прошлые значения зависимой переменной, а значит их значения также подчиняются той же AR-модели, то есть распределение регрессоров зависит от оцениваемых параметров. В таких случаях результаты применения условного и полного метода максимального правдоподобия будут различаться.
См. также
- Правдоподобие принятой последовательности
- Метод моментов
- Обобщенный метод моментов
- Метод наименьших квадратов
- Метод инструментальных переменных
- EM-алгоритм
Примечания
Литература
- Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0.
- Остапенко Р. И. Основы структурного моделирования в психологии и педагогике: учебно-методическое пособие для студентов психолого-педагогического факультета. — Воронеж.: ВГПУ, 2012. — 116 с. — ISBN 978-5-88519-886-8.
- Никулин М. С. Отношения правдоподобия критерий // Математическая энциклопедия / Виноградов И. М. (гл. ред.). — М.: Советская энциклопедия, 1984. — Т. 4. — С. 151. — 1216 с.
Для улучшения этой статьи желательно: |