Оценка апостериорного максимума
В статистике метод оценки с помощью апостериорного максимума (MAP) тесно связан с методом максимального правдоподобия (ML), но дополнительно при оптимизации использует априорное распределение величины, которую оценивает.
Введение
Предположим, что нам нужно оценить неконтролируемый параметр выборки [math]\displaystyle{ \theta }[/math] на базе наблюдений [math]\displaystyle{ x }[/math]. Пусть [math]\displaystyle{ f }[/math] — выборочное распределение [math]\displaystyle{ x }[/math], такое, что [math]\displaystyle{ f(x|\theta) }[/math] — вероятность [math]\displaystyle{ x }[/math] в то время как параметр выборки [math]\displaystyle{ \theta }[/math]. Тогда функция
- [math]\displaystyle{ \theta \mapsto f(x | \theta) }[/math]
известна как функция правдоподобия, а оценка
- [math]\displaystyle{ \hat{\theta}_{\mathrm{ML}}(x) = \arg\max_{\theta} f(x | \theta) }[/math]
как оценка максимального правдоподобия [math]\displaystyle{ \theta }[/math].
Теперь, предположим, что априорное распределение [math]\displaystyle{ g }[/math] на [math]\displaystyle{ \theta }[/math] существует. Это позволяет рассматривать [math]\displaystyle{ \theta }[/math] как случайную величину как в Байесовской статистике. тогда апостериорное распределение [math]\displaystyle{ \theta }[/math]:
- [math]\displaystyle{ \theta \mapsto \frac{f(x | \theta) \, g(\theta)}{\int_{\Theta} f(x | \theta') \, g(\theta') \, d\theta'} }[/math]
где [math]\displaystyle{ g }[/math] плотность распределения [math]\displaystyle{ \theta }[/math], [math]\displaystyle{ \Theta }[/math] — область определения [math]\displaystyle{ g }[/math]. Это прямое приложение Теоремы Байеса.
Метод оценки максимального правдоподобия затем оценивает [math]\displaystyle{ \theta }[/math] как апостериорное распределение этой случайной величины:
- [math]\displaystyle{ \hat{\theta}_{\mathrm{MAP}}(x) = \arg\max_{\theta} \frac{f(x | \theta) \, g(\theta)} {\int_{\Theta} f(x | \theta') \, g(\theta') \, d\theta'} = \arg\max_{\theta} f(x | \theta) \, g(\theta) }[/math]
Знаменатель апостериорного распределения не зависит от [math]\displaystyle{ \theta }[/math] и поэтому не играет роли в оптимизации. Заметим, что MAP оценка [math]\displaystyle{ \theta }[/math] соответствует ML оценке когда априорная [math]\displaystyle{ g }[/math] постоянна (т.е., константа).
Пример
Предположим, что у нас есть последовательность [math]\displaystyle{ (x_1, \dots, x_n) }[/math] i.i.d. [math]\displaystyle{ N(\mu,\sigma_v^2 ) }[/math] случайных величин и априорное распределение [math]\displaystyle{ \mu }[/math] задано [math]\displaystyle{ N(0,\sigma_m^2 ) }[/math]. Мы хотим найти MAP оценку [math]\displaystyle{ \mu }[/math].
Функция, которую нужно максимизировать задана
- [math]\displaystyle{ \pi(\mu) L(\mu) = \frac{1}{\sqrt{2 \pi \sigma_m}} \exp\left(-\frac{1}{2} \left(\frac{\mu}{\sigma_m}\right)^2\right) \prod_{j=1}^n \frac{1}{\sqrt{2 \pi \sigma_v}} \exp\left(-\frac{1}{2} \left(\frac{x_j - \mu}{\sigma_v}\right)^2\right), }[/math]
что эквивалентно минимизации [math]\displaystyle{ \mu }[/math] в
- [math]\displaystyle{ \sum_{j=1}^n \left(\frac{x_j - \mu}{\sigma_v}\right)^2 + \left(\frac{\mu}{\sigma_m}\right)^2. }[/math]
Таким образом, мы видим, что MAP оценка для μ задана
- [math]\displaystyle{ \hat{\mu}_{MAP} = \frac{\sigma_m^2}{n \sigma_m^2 + \sigma_v^2 } \sum_{j=1}^n x_j. }[/math]
См. также
- EM-алгоритм — один из способов вычисления MAP
- Метод максимального правдоподобия
Литература
- DeGroot, Morris H. Optimal Statistical Decisions. McGraw-Hill. 1970.
- Harold W. Sorenson. Parameter Estimation: Principles and Problems. Marcel Dekker. 1980.