EM-алгоритм

EM-алгоритм (англ. Expectation-maximization (EM) algorithm) — алгоритм, используемый в математической статистике для нахождения оценок максимального правдоподобия параметров вероятностных моделей, в случае, когда модель зависит от некоторых скрытых переменных. Каждая итерация алгоритма состоит из двух шагов. На E-шаге (expectation) вычисляется ожидаемое значение функции правдоподобия, при этом скрытые переменные рассматриваются как наблюдаемые. На M-шаге (maximization) вычисляется оценка максимального правдоподобия, таким образом увеличивается ожидаемое правдоподобие, вычисляемое на E-шаге. Затем это значение используется для E-шага на следующей итерации. Алгоритм выполняется до сходимости.

Часто EM-алгоритм используют для разделения смеси гауссиан.

Описание алгоритма

Пусть [math]\displaystyle{ \textbf{X} }[/math] — некоторые из значений наблюдаемых переменных, а [math]\displaystyle{ \textbf{T} }[/math] — скрытые переменные. Вместе [math]\displaystyle{ \textbf{X} }[/math] и [math]\displaystyle{ \textbf{T} }[/math] образуют полный набор данных. Вообще, [math]\displaystyle{ \textbf{T} }[/math] может быть некоторой подсказкой, которая облегчает решение проблемы в случае, если она известна. Например, если имеется смесь распределений, функция правдоподобия легко выражается через параметры отдельных распределений смеси.

Положим [math]\displaystyle{ p }[/math] — плотность вероятности (в непрерывном случае) или функция вероятности (в дискретном случае) полного набора данных с параметрами [math]\displaystyle{ \Theta }[/math]: [math]\displaystyle{ p( \mathbf X, \mathbf T | \Theta). }[/math] Эту функцию можно понимать как правдоподобие всей модели, если рассматривать её как функцию параметров [math]\displaystyle{ \Theta }[/math]. Заметим, что условное распределение скрытой компоненты при некотором наблюдении и фиксированном наборе параметров может быть выражено так:

[math]\displaystyle{ p(\mathbf T |\mathbf X, \Theta) = \frac{p(\mathbf X|\mathbf T, \Theta) p(\mathbf T |\Theta) }{p(\mathbf X | \Theta)} = \frac{p(\mathbf X|\mathbf T, \Theta) p(\mathbf T |\Theta) }{\int p(\mathbf X|\mathbf{\hat{T}}, \Theta) p(\mathbf{\hat{T}} |\Theta) d\mathbf{ \hat{T}}} }[/math],

используя расширенную формулу Байеса и формулу полной вероятности. Таким образом, нам необходимо знать только распределение наблюдаемой компоненты при фиксированной скрытой [math]\displaystyle{ p(\mathbf X|\mathbf T, \Theta) }[/math] и вероятности скрытых данных [math]\displaystyle{ p(\mathbf T |\Theta) }[/math].

EM-алгоритм итеративно улучшает начальную оценку [math]\displaystyle{ \Theta_0 }[/math], вычисляя новые значения оценок [math]\displaystyle{ \Theta_1, \Theta_2, }[/math] и так далее. На каждом шаге переход к [math]\displaystyle{ \Theta_{n+1} }[/math] от [math]\displaystyle{ \Theta_n }[/math] выполняется следующим образом:

[math]\displaystyle{ \Theta_{n+1} = \arg\max_{\Theta}Q(\Theta) }[/math]

где [math]\displaystyle{ Q(\Theta) }[/math] — матожидание логарифма правдоподобия. Другими словами, мы не можем сразу вычислить точное правдоподобие, но по известным данным ([math]\displaystyle{ X }[/math]) мы можем найти апостериорную оценку вероятностей для различных значений скрытых переменных [math]\displaystyle{ T }[/math]. Для каждого набора значений [math]\displaystyle{ T }[/math] и параметров [math]\displaystyle{ \Theta }[/math] мы можем вычислить матожидание функции правдоподобия по данному набору [math]\displaystyle{ X }[/math]. Оно зависит от предыдущего значения [math]\displaystyle{ \Theta }[/math], потому что это значение влияет на вероятности скрытых переменных [math]\displaystyle{ T }[/math].

[math]\displaystyle{ Q(\Theta) }[/math] вычисляется следующим образом:

[math]\displaystyle{ Q(\Theta) = E_{\mathbf T} \! \! \left[ \log p \left(\mathbf X, \mathbf T \,|\, \Theta \right) \Big| \mathbf X \right] }[/math]

то есть это условное матожидание [math]\displaystyle{ \log p \left( \mathbf X, \mathbf T \,|\, \Theta \right) }[/math] при условии [math]\displaystyle{ \mathbf X }[/math].

Другими словами, [math]\displaystyle{ \Theta_{n+1} }[/math] — это значение, максимизирующее (M) условное матожидание (E) логарифма правдоподобия при данных значениях наблюдаемых переменных и предыдущем значении параметров. В непрерывном случае значение [math]\displaystyle{ Q(\Theta) }[/math] вычисляется так:

[math]\displaystyle{ Q(\Theta) = E_{\mathbf T} \! \! \left[ \log p \left(\mathbf X, \mathbf T \,|\, \Theta \right) \Big| \mathbf X \right] = \int^\infty _{- \infty} p \left(\mathbf T \,|\, \mathbf X, \Theta_n \right) \log p \left(\mathbf X, \mathbf T \,|\, \Theta \right) d\mathbf T }[/math]

Альтернативное описание

При определённых обстоятельствах удобно рассматривать EM-алгоритм как два чередующихся шага максимизации.^[1]^[2] Рассмотрим функцию:

[math]\displaystyle{ F(q,\theta) = \operatorname{E}_q [ \log L (\theta ; x,Z) ] + H(q) = -D_{\text{KL}}\big(q \big\| p_{Z|X}(\cdot|x;\theta ) \big) + \log L(\theta;x) }[/math]

где q — распределение вероятностей ненаблюдаемых переменных Z; p_Z|X(· |x;θ) — условное распределение ненаблюдаемых переменных при фиксированных наблюдаемых x и параметрах θ; H — энтропия и D_KL — расстояние Кульбака-Лейблера.

Тогда шаги EM-алгоритма можно представить как:

E(xpectation) шаг: Выбираем q, чтобы максимизировать F:

[math]\displaystyle{ q^{(t)} = \operatorname*{\arg\,\max}_q \ F(q,\theta^{(t)}) }[/math]

M(aximization) шаг: Выбираем θ, чтобы максимизировать F:

[math]\displaystyle{ \theta^{(t+1)} = \operatorname*{\arg\,\max}_{\theta} \ F(q^{(t)},\theta) }[/math]

Примеры использования

k-means — алгоритм кластеризации, построенный на идее EM-алгоритма
Метод упругих карт для нелинейного сокращения размерности данных
Алгоритм Баума-Велша — алгоритм для оценки параметров скрытых марковских моделей

Примечания

↑ Radford; Neal; Hinton, Geoffrey. A view of the EM algorithm that justifies incremental, sparse, and other variants (англ.) // Learning in Graphical Models : journal / Michael I. Jordan. — Cambridge, MA: MIT Press, 1999. — P. 355—368. — ISBN 0262600323.
↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. 8.5 The EM algorithm // The Elements of Statistical Learning (неопр.). — New York: Springer, 2001. — С. 236—243. — ISBN 0-387-95284-5.

Ссылки

[neal1999-1] Radford; Neal; Hinton, Geoffrey. A view of the EM algorithm that justifies incremental, sparse, and other variants (англ.) // Learning in Graphical Models : journal / Michael I. Jordan. — Cambridge, MA: MIT Press, 1999. — P. 355—368. — ISBN 0262600323.

[hastie2001-2] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. 8.5 The EM algorithm // The Elements of Statistical Learning (неопр.). — New York: Springer, 2001. — С. 236—243. — ISBN 0-387-95284-5.

[1]

[2]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамбли моделей Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG