Теорема Цыбенко

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

Теорема Цыбенко, Универсальная теорема аппроксимации — теорема, доказанная Джорджем Цыбенко в 1989 году, которая утверждает, что искусственная нейронная сеть прямой связи (англ. feed-forward; в которых связи не образуют циклов) с одним скрытым слоем может аппроксимировать любую непрерывную функцию многих переменных с любой точностью. Условиями являются: достаточное количество нейронов скрытого слоя, удачный подбор [math]\displaystyle{ \mathbf{w}_1, \mathbf{w}_2, \dots, \mathbf{w}_N, \mathbf{\alpha}, }[/math] и [math]\displaystyle{ \mathbf{\theta} }[/math], где

[math]\displaystyle{ \mathbf{w}_i }[/math] — веса между входными нейронами и нейронами скрытого слоя,
[math]\displaystyle{ \mathbf{\alpha} }[/math] — веса между связями от нейронов скрытого слоя и выходным нейроном,
[math]\displaystyle{ \mathbf{\theta} }[/math] — смещения для нейронов входного слоя.

Формальное изложение

Пусть [math]\displaystyle{ \varphi }[/math] любая непрерывная сигмоидная функция, например, [math]\displaystyle{ \varphi(\xi) = 1/(1 + e^{-\xi}) }[/math]. Тогда, если дана любая непрерывная функция действительных переменных [math]\displaystyle{ f }[/math] на [math]\displaystyle{ [0, 1]^n }[/math] (или любое другое компактное подмножество [math]\displaystyle{ \mathbb{R}^n }[/math]) и [math]\displaystyle{ \varepsilon \gt 0 }[/math], то существуют векторы [math]\displaystyle{ \mathbf{w_1}, \mathbf{w_2}, \dots, \mathbf{w_N}, \mathbf{\alpha} }[/math] и [math]\displaystyle{ \mathbf{\theta} }[/math] и параметризованная функция [math]\displaystyle{ G(\mathbf{\cdot}, \mathbf{w}, \mathbf{\alpha}, \mathbf{\theta}): [0, 1]^n \to R }[/math] такая, что для всех [math]\displaystyle{ \mathbf{x} \in [0,1]^n }[/math] выполняется

[math]\displaystyle{ \big|G(\mathbf{x}, \mathbf{w}, \mathbf{\alpha}, \mathbf{\theta}) - f(\mathbf{x})\big| \lt \varepsilon, }[/math]

где

[math]\displaystyle{ G(\mathbf{x}, \mathbf{w}, \mathbf{\alpha}, \mathbf{\theta}) = \sum_{i=1}^N \alpha_i \varphi(\mathbf{w}_i^T \mathbf{x} + \theta_i), }[/math]

и [math]\displaystyle{ \mathbf{w}_i \in \mathbb{R}^n, }[/math] [math]\displaystyle{ \alpha_i, \theta_i \in \mathbb{R}, }[/math] [math]\displaystyle{ \mathbf{w} = (\mathbf{w}_1, \mathbf{w}_2, \dots, \mathbf{w}_N), }[/math] [math]\displaystyle{ \mathbf{\alpha} = (\alpha_1, \alpha_2, \dots, \alpha_N), }[/math] и [math]\displaystyle{ \mathbf{\theta} = (\theta_1, \theta_2, \dots, \theta_N). }[/math]

Ссылка

См. также