Сигмоида

Сигмо́ида — это гладкая монотонная возрастающая нелинейная функция, имеющая форму буквы «S», которая часто применяется для «сглаживания» значений некоторой величины.

Часто под сигмоидой понимают логистическую функцию

[math]\displaystyle{ \sigma(x) = \frac{1}{1 + e^{-x}}. }[/math]

Сигмоида ограничена двумя горизонтальными асимптотами, к которым стремится при стремлении аргумента к [math]\displaystyle{ \plusmn\infty. }[/math] В зависимости от соглашения, этими асимптотами могут быть y = ±1 (в [math]\displaystyle{ \plusmn\infty }[/math]) либо y = 0 в [math]\displaystyle{ -\infty }[/math] и y = +1 в [math]\displaystyle{ +\infty }[/math].

Производная сигмоиды представляет собой колоколообразную кривую с максимумом в нуле, асимптотически стремящуюся к нулю в [math]\displaystyle{ +\infty }[/math].

Семейство функций класса сигмоид

Сравнение некоторых сигмоидных функций, нормализованных таким образом, чтобы производная в начале координат была равна 1

В семейство функций класса сигмоид входят такие функции, как арктангенс, гиперболический тангенс и другие функции подобного вида.

Функция Ферми — Дирака (экспоненциальная сигмоида):

[math]\displaystyle{ f(x)= \frac{1}{1+e^{-2 \alpha x}}, \quad \alpha \gt 0. }[/math]

Рациональная сигмоида:

[math]\displaystyle{ f(x)= \frac{x}{|x|+ \alpha}, \quad \alpha \gt 0. }[/math]

Арктангенс:

[math]\displaystyle{ f(x)= \operatorname{arctg} x. }[/math]

Гиперболический тангенс:

[math]\displaystyle{ f(x)= \operatorname{th} \frac{x}{\alpha} = \frac{ e^{ \frac{x}{\alpha} } - e^{ - \frac{x}{\alpha}} } {e^{ \frac{x}{\alpha} } + e^{ - \frac{x}{\alpha}}} . }[/math]

Гладкая ступенька N-го порядка:

[math]\displaystyle{ f(x) = \begin{cases} \left(\int_{0}^{1} \big(1 - u^2 \big)^N \ du \right)^{-1} \int_{0}^{x} \big(1 - u^2 \big)^N \ du \quad & |x| \le 1 \\ \sgn(x) & |x| \ge 1 \\ \end{cases} \, \quad N \ge 1 }[/math]

Корневая сигмоида:

[math]\displaystyle{ f(x) = \frac{x}{\sqrt{1+x^2}}. }[/math]

Логистическая функция:

[math]\displaystyle{ f(x) = (1+e^{-x})^{-1}. }[/math]

Обобщённая логистическая функция:

[math]\displaystyle{ f(x) = (1+e^{-x})^{-\alpha}, \quad \alpha \gt 0. }[/math]

Функция ошибок:

[math]\displaystyle{ f(x) = \operatorname{erf}(x) = \frac{2}{\sqrt{\pi}}\int_0^x e^{-t^2} \, dt. }[/math]

Функция Гудермана:

[math]\displaystyle{ f(x) = \operatorname{gd} x = \int_{0}^{x} \frac{1}{\cosh t} \, dt = \operatorname{arctg}(\operatorname{sh} x). }[/math]

Применение

Нейронные сети

Сигмоиды применяются в нейронных сетях в качестве функций активации. Они позволяют нейронам как усиливать слабые сигналы, так и не насыщаться от сильных сигналов^[1].

В нейронных сетях часто используются сигмоиды, производные которых могут быть выражены через саму функцию. Это позволяет существенно сократить вычислительную сложность метода обратного распространения ошибки, сделав его применимым на практике:

[math]\displaystyle{ \sigma'(x) = (1 + \sigma(x)) \cdot (1 - \sigma(x)) }[/math] — для гиперболического тангенса;

[math]\displaystyle{ \sigma'(x) = \sigma(x) \cdot (1 - \sigma(x)) }[/math] — для логистической функции.

Логистическая регрессия

Логистическая функция [math]\displaystyle{ f(x) = \frac{1}{1 + e^{-x}} }[/math] используется в решении задач классификации с использованием логистической регрессии. Пусть решается задача классификации с двумя классами ([math]\displaystyle{ y=0 }[/math] и [math]\displaystyle{ y=1 }[/math], где [math]\displaystyle{ y }[/math] — переменная, указывающая класс объекта). Делается предположение о том, что вероятность принадлежности объекта к одному из классов выражается через значения признаков этого объекта [math]\displaystyle{ x_1, x_2, ..., x_n }[/math] (действительные числа):

[math]\displaystyle{ \mathbb{P}\{y=1\mid x_1,\ldots,x_n\} = f(a_1 x_1 + \ldots + a_n x_n) = \frac{1}{1 + \exp(-a_1 x_1 - \ldots - a_n x_n)}, }[/math]

где [math]\displaystyle{ a_1, ..., a_n }[/math] — некоторые коэффициенты, требующие подбора, обычно, методом наибольшего правдоподобия.

Именно такая функция [math]\displaystyle{ f(x) }[/math] получается при использовании обобщённой линейной модели и предположения, что зависимая переменная [math]\displaystyle{ y }[/math] распределена по закону Бернулли.

См. также

Литература

Mitchell, Tom M. Machine Learning. — WCB–McGraw–Hill, 1997. — ISBN 0-07-042807-7.

Примечания

↑ Функции активации в нейронных сетях (неопр.). Дата обращения: 11 сентября 2014. Архивировано 24 июля 2014 года.

Ссылки

[1] Функции активации в нейронных сетях (неопр.). Дата обращения: 11 сентября 2014. Архивировано 24 июля 2014 года.

[1]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамбли моделей Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG