Управляемый рекуррентный блок

Управляемые рекуррентные блоки (англ. Gated Recurrent Units, GRU) — механизм вентилей для рекуррентных нейронных сетей, представленный в 2014 году. Было установлено, что его эффективность при решении задач моделирования музыкальных и речевых сигналов сопоставима с использованием долгой краткосрочной памяти (LSTM).^[1] По сравнению с LSTM у данного механизма меньше параметров, т.к. отсутствует выходной вентиль.^[2]

Архитектура

[math]\displaystyle{ \circ }[/math] обозначает произведение Адамара. [math]\displaystyle{ h_0 = 0 }[/math].

[math]\displaystyle{ \begin{align} z_t &= \sigma_g(W_{z} x_t + U_{z} h_{t-1} + b_z) \\ r_t &= \sigma_g(W_{r} x_t + U_{r} h_{t-1} + b_r) \\ h_t &= z_t \circ h_{t-1} + (1-z_t) \circ \sigma_h(W_{h} x_t + U_{h} (r_t \circ h_{t-1}) + b_h) \end{align} }[/math]

Переменные

[math]\displaystyle{ x_t }[/math]: входной вектор
[math]\displaystyle{ h_t }[/math]: выходной вектор
[math]\displaystyle{ z_t }[/math]: вектор вентиля обновления
[math]\displaystyle{ r_t }[/math]: вектор вентиля сброса
[math]\displaystyle{ W }[/math], [math]\displaystyle{ U }[/math] и [math]\displaystyle{ b }[/math]: матрицы параметров и вектор

Функции активации

[math]\displaystyle{ \sigma_g }[/math]: на основе сигмоиды.
[math]\displaystyle{ \sigma_h }[/math]: на основе гиперболического тангенса.

См. также

Долгая краткосрочная память

Примечания

↑ Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun & Bengio, Yoshua (2014), Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling, arΧiv:1412.3555 [cs.NE].
↑ Recurrent Neural Network Tutorial, Part 4 – Implementing a GRU/LSTM RNN with Python and Theano – WildML (неопр.). Дата обращения: 18 мая 2016. Архивировано 27 октября 2015 года.

[MyUser_Arxiv.org_May_18_2016c-1] Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun & Bengio, Yoshua (2014), Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling, arΧiv:1412.3555 [cs.NE].

[MyUser_Wildml.com_May_18_2016c-2] Recurrent Neural Network Tutorial, Part 4 – Implementing a GRU/LSTM RNN with Python and Theano – WildML (неопр.). Дата обращения: 18 мая 2016. Архивировано 27 октября 2015 года.

[1]

[2]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамбли моделей Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG