Оценка апостериорного максимума

В статистике метод оценки с помощью апостериорного максимума (MAP) тесно связан с методом максимального правдоподобия (ML), но дополнительно при оптимизации использует априорное распределение величины, которую оценивает.

Введение

Предположим, что нам нужно оценить неконтролируемый параметр выборки [math]\displaystyle{ \theta }[/math] на базе наблюдений [math]\displaystyle{ x }[/math]. Пусть [math]\displaystyle{ f }[/math] — выборочное распределение [math]\displaystyle{ x }[/math], такое, что [math]\displaystyle{ f(x|\theta) }[/math] — вероятность [math]\displaystyle{ x }[/math] в то время как параметр выборки [math]\displaystyle{ \theta }[/math]. Тогда функция

[math]\displaystyle{ \theta \mapsto f(x | \theta) }[/math]

известна как функция правдоподобия, а оценка

[math]\displaystyle{ \hat{\theta}_{\mathrm{ML}}(x) = \arg\max_{\theta} f(x | \theta) }[/math]

как оценка максимального правдоподобия [math]\displaystyle{ \theta }[/math].

Теперь, предположим, что априорное распределение [math]\displaystyle{ g }[/math] на [math]\displaystyle{ \theta }[/math] существует. Это позволяет рассматривать [math]\displaystyle{ \theta }[/math] как случайную величину как в Байесовской статистике. тогда апостериорное распределение [math]\displaystyle{ \theta }[/math]:

[math]\displaystyle{ \theta \mapsto \frac{f(x | \theta) \, g(\theta)}{\int_{\Theta} f(x | \theta') \, g(\theta') \, d\theta'} }[/math]

где [math]\displaystyle{ g }[/math] плотность распределения [math]\displaystyle{ \theta }[/math], [math]\displaystyle{ \Theta }[/math] — область определения [math]\displaystyle{ g }[/math]. Это прямое приложение Теоремы Байеса.

Метод оценки максимального правдоподобия затем оценивает [math]\displaystyle{ \theta }[/math] как апостериорное распределение этой случайной величины:

[math]\displaystyle{ \hat{\theta}_{\mathrm{MAP}}(x) = \arg\max_{\theta} \frac{f(x | \theta) \, g(\theta)} {\int_{\Theta} f(x | \theta') \, g(\theta') \, d\theta'} = \arg\max_{\theta} f(x | \theta) \, g(\theta) }[/math]

Знаменатель апостериорного распределения не зависит от [math]\displaystyle{ \theta }[/math] и поэтому не играет роли в оптимизации. Заметим, что MAP оценка [math]\displaystyle{ \theta }[/math] соответствует ML оценке когда априорная [math]\displaystyle{ g }[/math] постоянна (т.е., константа).

Пример

Предположим, что у нас есть последовательность [math]\displaystyle{ (x_1, \dots, x_n) }[/math] i.i.d. [math]\displaystyle{ N(\mu,\sigma_v^2 ) }[/math] случайных величин и априорное распределение [math]\displaystyle{ \mu }[/math] задано [math]\displaystyle{ N(0,\sigma_m^2 ) }[/math]. Мы хотим найти MAP оценку [math]\displaystyle{ \mu }[/math].

Функция, которую нужно максимизировать задана

[math]\displaystyle{ \pi(\mu) L(\mu) = \frac{1}{\sqrt{2 \pi \sigma_m}} \exp\left(-\frac{1}{2} \left(\frac{\mu}{\sigma_m}\right)^2\right) \prod_{j=1}^n \frac{1}{\sqrt{2 \pi \sigma_v}} \exp\left(-\frac{1}{2} \left(\frac{x_j - \mu}{\sigma_v}\right)^2\right), }[/math]

что эквивалентно минимизации [math]\displaystyle{ \mu }[/math] в

[math]\displaystyle{ \sum_{j=1}^n \left(\frac{x_j - \mu}{\sigma_v}\right)^2 + \left(\frac{\mu}{\sigma_m}\right)^2. }[/math]

Таким образом, мы видим, что MAP оценка для μ задана

[math]\displaystyle{ \hat{\mu}_{MAP} = \frac{\sigma_m^2}{n \sigma_m^2 + \sigma_v^2 } \sum_{j=1}^n x_j. }[/math]

См. также

EM-алгоритм — один из способов вычисления MAP
Метод максимального правдоподобия

Литература

DeGroot, Morris H. Optimal Statistical Decisions. McGraw-Hill. 1970.
Harold W. Sorenson. Parameter Estimation: Principles and Problems. Marcel Dekker. 1980.