Минимизация эмпирического риска

Минимизация эмпирического риска (МЭР, англ. Empirical risk minimization, ERM) — это принцип статистической теории обучения, который определяет семейство обучающихся алгоритмов и который задаёт теоретические границы результативности.

Основания

Рассмотрим следующую ситуацию, которая является основной установкой многих задач контролируемого обучения. Мы имеем два пространства объектов [math]\displaystyle{ X }[/math] и [math]\displaystyle{ Y }[/math] и хотели бы натренировать функцию [math]\displaystyle{ \ h: X \to Y }[/math] (часто именуемую гипотезой), которая ставит объект [math]\displaystyle{ y \in Y }[/math] в соответствие объекту [math]\displaystyle{ x \in X }[/math]. Для этого мы имеем в распоряжении тренировочный набор из [math]\displaystyle{ n }[/math] экземпляров [math]\displaystyle{ \ (x_1, y_1), \ldots, (x_n, y_n) }[/math], где [math]\displaystyle{ x_i \in X }[/math] является входом, а [math]\displaystyle{ y_i \in Y }[/math] является соответствующим ответом, который мы хотим получить от [math]\displaystyle{ \ h(x_i) }[/math].

Выражаясь более формально, предположим, что существует совместное распределение [math]\displaystyle{ P(x, y) }[/math] над [math]\displaystyle{ X }[/math] и [math]\displaystyle{ Y }[/math], и что тренировочный набор состоит из [math]\displaystyle{ n }[/math] экземпляров [math]\displaystyle{ \ (x_1, y_1), \ldots, (x_n, y_n) }[/math], выбранных из независимых случайно распределённых величин из [math]\displaystyle{ P(x, y) }[/math]. Заметим, что допущение о совместном распределении позволяет симулировать неопределённость в предсказании (например, из-за шума в данных), поскольку [math]\displaystyle{ y }[/math] не является детерминированной функцией от [math]\displaystyle{ x }[/math], а скорее случайной величиной с условным распределением [math]\displaystyle{ P(y | x) }[/math] для фиксированного [math]\displaystyle{ x }[/math].

Предположим также, что нам дана неотрицательная вещественнозначная функция потери [math]\displaystyle{ L(\hat{y}, y) }[/math], которая измеряет то, насколько отличается предсказание [math]\displaystyle{ \hat{y} }[/math] гипотезы от истинного выхода [math]\displaystyle{ y. }[/math] Риск^[en], ассоциированный с гипотезой [math]\displaystyle{ h(x) }[/math], определяется тогда как математическое ожидание функции потери:

[math]\displaystyle{ R(h) = \mathbf{E}[L(h(x), y)] = \int L(h(x), y)\,dP(x, y). }[/math]

Часто в качестве функции потери в теории используется 0-1 функция потери: [math]\displaystyle{ L(\hat{y}, y) = I(\hat{y} \ne y) }[/math], где [math]\displaystyle{ I(\dots) }[/math] означает индикатор.

Высшей целью обучающегося алгоритма является отыскание гипотезы [math]\displaystyle{ h^* }[/math] в фиксированном классе функций [math]\displaystyle{ \mathcal{H} }[/math], для которых риск [math]\displaystyle{ R(h) }[/math] минимален:

[math]\displaystyle{ h^* = \arg \min_{h \in \mathcal{H}} R(h). }[/math]

Минимизация эмпирического риска

В общем случае риск [math]\displaystyle{ R(h) }[/math] не может быть вычислен, поскольку распределение [math]\displaystyle{ P(x, y) }[/math] неизвестно для обучающего алгоритма (эта ситуация называется агностическим обучением). Однако мы можем вычислить аппроксимацию, именуемую эмпирическим риском, путём усреднения функции потери на тренировочном наборе:

[math]\displaystyle{ \! R_\text{emp}(h) = \frac{1}{n} \sum_{i=1}^n L(h(x_i), y_i). }[/math]

Принцип минимизации эмпирического риска (МЭР) ^[1] утверждает, что обучающийся алгоритм должен выбирать гипотезу [math]\displaystyle{ \hat{h} }[/math], которая минимизирует риск:

[math]\displaystyle{ \hat{h} = \arg \min_{h \in \mathcal{H}} R_{\text{emp}}(h). }[/math]

Тогда обучающийся алгоритм, определённый принципом МЭР состоит в решении вышеуказанной задачи оптимизации.

Свойства

Вычислительная сложность

Известно, что минимизация эмпирического риска для задачи классификации с 0-1 функцией потери является NP-трудной даже для такого относительно простого класса функций задач, как линейные классификаторы^[2]. Хотя она может быть эффективно решена, когда минимальный эмпирический риск равен нулю, то есть данные линейно сепарабельны.

На практике автоматически обучающиеся алгоритмы справляются с этим либо путём выпуклой аппроксимации до 0-1 функции потери (подобно кусочно-линейной функции потерь^[en] для машин опорных элементов), которую проще оптимизировать, либо выдвижением допущения о распределении [math]\displaystyle{ P(x, y) }[/math] (а тогда обучающийся алгоритм перестаёт быть агностическим).

См. также

Метод максимального правдоподобия

Примечания

↑ Vapnik, 1992, с. 831–838.
↑ Feldman, Guruswami, Raghavendra, Wu, 2012, pp. 1558-1590.

Литература

Vapnik V. Principles of Risk Minimization for Learning Theory // Advances in neural information processing systems. — 1992.
Feldman V., Guruswami V., Raghavendra P., Yi Wu. Agnostic Learning of Monomials by Halfspaces is Hard // SIAM Journal on Computing. — 2012. — Т. 41, вып. 6. — С. 1558—1590. — doi:10.1137/120865094.

Литература для дальнейшего чтения

Vapnik V. The Nature of Statistical Learning Theory. — 2000. — (Information Science and Statistics). — ISBN 978-0-387-98780-4.

[_1530c35052edd409-1] Vapnik, 1992, с. 831–838.

[_f0f1fa7ceb021913-2] Feldman, Guruswami, Raghavendra, Wu, 2012, pp. 1558-1590.

[1]

[2]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамбли моделей Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG