Softmax

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

Softmax — это обобщение логистической функции для многомерного случая. Функция преобразует вектор [math]\displaystyle{ z }[/math] размерности [math]\displaystyle{ K }[/math] в вектор [math]\displaystyle{ \sigma }[/math] той же размерности, где каждая координата [math]\displaystyle{ \sigma_i }[/math] полученного вектора представлена вещественным числом в интервале [0,1] и сумма координат равна 1.

Координаты [math]\displaystyle{ \sigma_i }[/math] вычисляются следующим образом:

[math]\displaystyle{ \sigma(z)_i = \frac{e^{z_i}}{\displaystyle\sum_{k \mathop =1}^K e^{z_k}} }[/math]

Применение в машинном обучении

Функция Softmax применяется в машинном обучении для задач классификации, когда количество возможных классов больше двух (для двух классов используется логистическая функция). Координаты [math]\displaystyle{ \sigma_i }[/math] полученного вектора при этом трактуются как вероятности того, что объект принадлежит к классу [math]\displaystyle{ i }[/math]. Вектор-столбец [math]\displaystyle{ z }[/math] при этом рассчитывается следующим образом:

[math]\displaystyle{ z=w^T x - \theta }[/math]

где [math]\displaystyle{ x }[/math] — вектор-столбец признаков объекта размерности [math]\displaystyle{ M\times 1 }[/math]; [math]\displaystyle{ w^T }[/math]транспонированная матрица весовых коэффициентов признаков, имеющая размерность [math]\displaystyle{ K\times M }[/math]; [math]\displaystyle{ \theta }[/math] — вектор-столбец с пороговыми значениями размерности [math]\displaystyle{ K\times 1 }[/math] (см. перцептрон), где [math]\displaystyle{ K }[/math]— количество классов объектов, а [math]\displaystyle{ M }[/math] — количество признаков объектов.

Часто Softmax используется для последнего слоя глубоких нейронных сетей для задач классификации. Для обучения нейронной сети при этом в качестве функции потерь используется перекрёстная энтропия.