Обучение признакам

Обучение признакам или обучение представлениям^[1] — это набор техник, которые позволяют системе автоматически обнаружить представления, необходимые для выявления признаков или классификации исходных (сырых) данных. Это заменяет ручное конструирование признаков и позволяет машине как изучать признаки, так и использовать их для решения специфичных задач.

Обучение признакам вызвано фактом, что в задачах машинного обучения, таких как классификация, часто требуется вход, который удобно обрабатывать математически и вычислительно. Однако реальные данные, такие как изображения, видео и данные датчиков, не поддаются алгоритмическому определению специфичных признаков. Альтернативой является обнаружение таких признаков или представлений путём исследования без опоры на определённые алгоритмы.

Обучение признакам может быть с учителем или без.

В обучении признакам с учителем обучение происходит с помощью помеченных входных данных. Примерами являются нейронные сети с учителем, многослойный перцептрон и словарное обучение (с учителем).
В обучении признакам без учителя обучение происходит с помощью непомеченных входных данных. Примерами являются словарное обучение, анализ независимых компонент, автокодировщики, разложение матриц^[2] и различные формы кластеризации^[3]^[4]^[5].

Обучение с учителем

Обучение признакам с учителем — это обучение признакам из помеченных данных. Пометки данных позволяют системе вычислить величину погрешности, то есть уровень, при превышении которого система не может воспроизвести пометку, кроме того, величина погрешности может затем быть использована как обратная реакция для корректировки процесса обучения (уменьшить/минимизировать ошибку). Обучению с учителем принадлежат следующие подходы:

Словарное обучение с учителем

Словарное обучение создаёт множество (словарь) представительных элементов из входных данных, такой, что каждая точка данных может быть представлена как взвешенная сумма представительных элементов. Элементы словаря и веса можно найти путём минимизации средней ошибки представления (по входным данным) вместе с L1 регуляризацией на весах для обеспечения разреженности (т.е. представление каждой точки данных имеет лишь несколько ненулевых весов).

Словарное обучение с учителем использует как структуру лежащих в основе входных данных, так и метки для оптимизации словарных элементов. Например, техника словарного обучения с учителем^[6] применяется к словарному обучению для задач классификации путём совместной оптимизации словарных элементов, весов для представляющих данные точек и параметров классификации, основываясь на входных данных. В частности, формулируется задача минимизации, в которой целевая функция включает ошибку классификации, ошибку представления, L1 регуляризации весов для каждой точки (для обеспечения разреженности данных) и L2 регуляризации на параметрах классификатора.

Нейронные сети

Нейронные сети — это семейство обучаемых алгоритмов, которые используют «сеть», состоящую из нескольких уровней внутренне связанных узлов. Узлы рассматриваются как нейроны, а дуги рассматриваются как связи между нейронами. Каждой дуге приписывается вес, и сеть определяет вычислительные правила для обработки входных данных от входного уровня сети к выходному уровню. Функция сети, ассоциированная с нейронной сетью, описывает связь между входным и выходным уровнями. При должном определении функции сети различные задачи обучения могут быть решены путём минимизации функции цены над функцией сети (весам)^{[уточнить]}.

Многослойные нейронные сети могут быть использованы для осуществления обучения признакам, поскольку они обучают представления входа на скрытых уровнях, которые затем используются для классификации или регрессии на выходном уровне. Наиболее популярная архитектура сети этого типа — сиамские сети.

Без учителя

Обучение признакам без учителя — это обучение признакам из непомеченных данных. Цель обучения признакам без учителя часто заключается в обнаружении признаков малой размерности, которые воспроизводят некоторую структуру лежащих в основе многомерных входных данных. Когда обучение признакам осуществляется без учителя, возможен вид обучения с частичным привлечением учителя, где признаки учатся из непомеченных данных, а затем производится обучение с учителем с помеченными данными для улучшения производительности ^[7]^[8]. К этому классу методов принадлежат следующие.

Кластеризация методом K-средних

Метод k-средних — это подход для векторного квантования. В частности, если дано множество из n векторов, кластеризация методом k-средних группирует их в k кластеров (т.е. подмножеств) таким способом, что каждый вектор принадлежит кластеру с самым близким средним. Задача вычислительно NP-трудна, хотя были разработаны подоптимальные жадные алгоритмы.

Метод k-средних можно использовать для группировки непомеченных множеств входных данных в k кластеров, а затем использовать центры тяжести этих кластеров для выделения признаков. Эти признаки можно выделять несколькими путями. Самый простой путь — добавить k бинарных признаков к каждому элементу данных, где каждый признак j имеет значение 1 тогда и только тогда, когда j-ый центроид, обученный посредством k-средних, является наиболее близким к элементу рассматриваемых данных^[3]. Можно также использовать расстояния до кластеров в качестве признаков после преобразования их посредством радиально-базисной функции (техника, которая использовалась для обучения RBF сетей^[9]). Коутс и Ын заметили, что некоторые варианты k-средних ведут себя подобно алгоритмам разреженного кодирования^[10].

В сравнительной оценке методов обучения признакам без учителя Коутс, Ли и Ын нашли, что кластеризация k-средних с подходящим преобразованием превосходит позднее разработанные автокодировщики и ограниченные машины Больцмана на задачах классификации изображений^[3]. K-средние также улучшает производительность в области обработки естественного языка (англ. Natural language processing, NLP), в частности, для распознавания именованных сущностей^[en]^[11]. Здесь метод соревнуется с кластеризацией Брауна^[en], а также с распределённым представлением слов (известным также как нейронное векторное представление слов)^[8].

Метод главных компонент

Метод главных компонент (МГК) часто используется для снижения размерности. Если дано непомеченное множество n входных векторов данных, МГК генерирует p (которое много меньше размерности входных данных) правых сингулярных векторов, соответствующих p наибольшим сингулярным значениям матрицы данных, где k-ая строка матрицы данных является k-ым входным вектором, сдвинутым на выборочное среднее входных данных (т.е. вычитания среднего из вектора данных). Эквивалентно, эти сингулярные вектора являются собственными векторами, соответствующими p наибольшим собственным значениям выборочной ковариантной матрицы входных векторов. Эти p сингулярных векторов являются векторами признаков, извлечённых из входных данных. Они представляют направления, вдоль которых данные имеют наибольшие изменения.

Метод главных компонент является методом линейного обучения признакам, поскольку p сингулярных векторов являются линейными функциями от матрицы данных. Сингулярные вектора могут быть получены посредством простого алгоритма за p итераций. На i-ой итерации вычитается проекция матрицы данных на (i-1)-ый собственный вектор и ищется i-ый сингулярный вектор как правый сингулярный вектор, соответствующий наибольшему сингулярному числу остаточной матрицы данных.

Метод главных компонент имеет некоторые ограничения. Во-первых, метод предполагает, что направления с наибольшими отклонениями наиболее интересны, что может не соответствовать действительности. Метод главных компонент опирается только на ортогональные преобразования исходных данных и использует только моменты первого и второго порядка, которые могут не вполне адекватно описывать распределение данных. Более того, МГК может эффективно уменьшить размерность только в случае, когда вектора входных данных коррелируют (что приводит к малому количеству доминирующих собственных значений).

Локально-линейное вложение

Локально-линейное вложение^[en] (ЛЛВ) — это метод нелинейного обучения для получения сохраняющего соседство представления низкой размерности из (непомеченных) входных данных высокой размерности. Подход предложили Ровайс и Сол^[12]^[13]. Основная идея локально-линейного вложения заключается в пересоздании исходных данных высокой размерности при использовании точек с малой размерностью и сохранении при этом некоторые геометрические свойства соседства исходного множества данных.

Локально-линейное вложение состоит из двух главных шагов. Первый шаг осуществляется с целью «сохранения соседства», когда каждая входная точка данных Xi пересоздаётся как взвешенная сумма K ближайших соседних точек данных, а оптимальные веса находятся путём минимизации средней квадратичной ошибки реконструированных данных (т.е. разность между входной точкой и её реконструкцией) при условии, что веса, ассоциированные с каждой точкой, в сумме дают единицу. На втором шаге осуществляется «сокращение размерности» путём поиска векторов в пространстве низкой размерности, которые минимизируют ошибку представления, используя оптимизированные веса из первого шага. Заметим, что на первом шаге веса оптимизируются на фиксированных данных, так что задача может быть решена методом наименьших квадратов. На втором шаге точки пространства малой размерности оптимизируются с фиксированными весами, так что эту задачу можно решить с помощью разложения по собственным значениям разрешенной матрицы.

Веса, полученные на первом шаге, захватывают «существенные геометрические свойства» соседства входных данных^[13]. Предполагается, что исходные данные лежат на гладком многообразии низкой размерности, а «существенные геометрические свойства», захваченные весами, также лежат на многообразии. Вот почему те же самые веса используются во втором шаге метода. По сравнению с МГК метод ЛЛВ более сильный для обнаружения лежащей в основе структуры данных.

Анализ независимых компонент

Анализ независимых компонент (АНК) — это техника образования представления данных с использованием взвешенной суммы независимых негауссовых компонент^[14]. Предположение негауссовости накладывается ввиду того, что веса не могут быть однозначно определены, если все компоненты имеют гауссово распределение.

Словарное обучение без учителя

Словарное обучение без учителя не использует пометку данных и пользуется структурой данных, лежащей в основе, для оптимизации элементов словаря. Примером словарного обучения без учителя служит разреженное кодирование, целью которого является изучение базисных функций (элементов словаря) для представления данных из непомеченных входных данных. Разреженное кодирование может быть применено для обучения переполненных словарей, где число элементов словаря больше размерности входных данных^[15]. Аарон и др. предложили алгоритм K-SVD^[en] (англ. K-Singular Value Decomposition, K-Сингулярное Разложение) для обучения словаря элементов, которое даёт разреженное представление^[16].

Многоуровневые/глубокие архитектуры

Иерархическая архитектура биологических нейронных сетей вдохновило архитектуру глубокого обучения для обучения признакам путём каскадирования слоёв обучаемых уровней^[17]. Эти архитектуры часто разрабатываются на основе предположения распределенного представления — экспериментальные данные генерируются путём взаимодействия многих различных факторов на нескольких уровнях. В архитектуре глубокого обучения выход каждого промежуточного уровня можно рассматривать как представление исходных входных данных. Каждый уровень использует в качестве входа представление, произведённое предыдущим уровнем, и создаёт новое представление на выходе, которое затем подаётся на уровень выше. Входом самого нижнего уровня служат сырые данные, а в качестве выхода конечного уровня служит конечный признак или представление низкой размерности.

Ограниченная машина Больцмана

Ограниченные машины Больцмана (ОМБ) часто используются в качестве строительных блоков многоуровневых обучаемых архитектур^[3]^[18]. Ограниченная машина Больцмана может быть представлена неориентированным двудольным графом, состоящим из группы двоичных^[en] скрытых переменных, группы видимых переменных и рёбер, соединяющих скрытые и видимые переменные. ОМБ является специальным случаем более общих машин Больцмана с ограничением, что нет внутриузловых связей. Каждому ребру ОМБ приписывается вес. Веса вместе с соединениями определяют функцию энергии, основываясь на которой, можно разработать совместное распределение видимых и скрытых узлов. На основе топологии ОМБ, скрытые (видимые) переменные независимы и обусловлены видимыми (скрытыми) переменными. Такая условная независимость облегчает вычисления.

ОМБ можно рассматривать как архитектура с одним уровнем для обучения признакам без учителя. В частности, видимые переменные соответствуют входным данным, а скрытые переменные соответствуют детекторам признаков. Веса могут быть обучены путём максимизации вероятности видимых переменных с помощью алгоритма контрастивной дивергенции Хинтона (CD)^[18].

В общем виде обучение ОМБ путём решения задачи максимизации приводит к представлению, не являющемуся разреженным. Разреженная ОМБ^[19] была предложена для обеспечения разреженных представлений. Идея заключается в добавлении члена регуляризации в целевую функции правдоподобия данных, которая штрафует отклонение дисперсии скрытых переменных от константы [math]\displaystyle{ p }[/math] с малой величиной.

Автокодировщик

Автокодировщик состоит из кодировщика, а декодировщик является парадигмой для архитектур глубокого обучения. Пример привели Хинтон и Салахутдинов^[18], в котором кодировщик использует сырые данные (например, изображение) в качестве входных данных и даёт признак или представление в качестве выхода, а декодировщик использует выделенный кодировщиком признак в качестве входа и восстанавливает исходные входные сырые данные в качестве выхода. Кодировщик и декодировщик строятся путём каскадирования ограниченных машин Больцмана. Параметры, используемые в архитектуре, первоначально полученные жадным алгоритмом от уровня к уровню — после того, как один уровень выявления признаков обучен, признаки представляются как видимые переменные для обучения соответствующей ОМБ. В настоящее время подходы обычно применяют сквозное обучение методами стохастического градиента^[en]. Обучение можно повторять, пока не достигнем некоторого останавливающего критерия.

См. также

Примечания

↑ Bengio, Courville, Vincent, 2013, с. 1798–1828.
↑ Srebro, Rennie, Jaakkola, 2004.
↑ ^3,0 ^3,1 ^3,2 ^3,3 Coates, Lee, Ng, 2011.
↑ Csurka, Dance, Fan, Willamowski, Bray, 2004.
↑ Jurafsky, Martin, 2009, с. 145–146.
↑ Mairal, Bach, Ponce, Sapiro, Zisserman, 2009.
↑ Liang, 2005, с. 44–52.
↑ ^8,0 ^8,1 Turian, Ratinov, Bengio, 2010.
↑ Schwenker, Kestler, Palm, 2001, с. 439–458.
↑ Coates, Ng, 2012.
↑ Lin, Wu, 2009, с. 1030–1038.
↑ Roweis, Saul, 2000, с. 2323–2326.
↑ ^13,0 ^13,1 Saul, Roweis, 2001.
↑ Hyvärinen, Oja, 2000, с. 411–430.
↑ Lee, Battle, Raina, Ng, 2007.
↑ Aharon, Elad, Bruckstein, 2006, с. 4311–4322.
↑ Bengio, 2009, с. 1–127.
↑ ^18,0 ^18,1 ^18,2 Hinton, Salakhutdinov, 2006, с. 504–507.
↑ Lee, Ekanadham, Ng, 2008.

Литература

Y. Bengio, A. Courville, P. Vincent. Representation Learning: A Review and New Perspectives // IEEE Trans. PAMI, special issue Learning Deep Architectures. — 2013. — Т. 35. — С. 1798–1828. — doi:10.1109/tpami.2013.50. — arXiv:1206.5538.
Nathan Srebro, Jason D. M. Rennie, Tommi S. Jaakkola. Maximum-Margin Matrix Factorization // NIPS. — 2004.
Gabriella Csurka, Christopher C. Dance, Lixin Fan, Jutta Willamowski, Cédric Bray. Visual categorization with bags of keypoints // ECCV Workshop on Statistical Learning in Computer Vision. — 2004.
Daniel Jurafsky, James H. Martin. Speech and Language Processing. — Pearson Education International, 2009.
Julien Mairal, Francis Bach, Jean Ponce, Guillermo Sapiro, Andrew Zisserman. Supervised Dictionary Learning // Advances in Neural Information Processing Systems. — 2009.
Percy Liang. Semi-Supervised Learning for Natural Language. — MIT, 2005. — (M. Eng.).
Friedhelm Schwenker, Hans A. Kestler, Günther Palm. Three learning phases for radial-basis-function networks // Neural Networks. — 2001. — Т. 14. — С. 439–458. — doi:10.1016/s0893-6080(01)00027-2.
Adam Coates, Andrew Y. Ng. Neural Networks: Tricks of the Trade / G. Montavon, G. B. Orr and K.-R. Müller. — Springer, 2012.
Dekang Lin, Xiaoyun Wu. Proc. J. Conf. of the ACL and 4th Int'l J. Conf. on Natural Language Processing of the AFNLP. — 2009. Архивная копия от 3 марта 2016 на Wayback Machine
Joseph Turian, Lev Ratinov, Yoshua Bengio. Word representations: a simple and general method for semi-supervised learning // ACL, Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. — 2010. Архивировано 26 февраля 2014 года.
Sam T Roweis, Lawrence K Saul. Nonlinear Dimensionality Reduction by Locally Linear Embedding // Science, New Series. — 2000. — Т. 290, вып. 5500. — doi:10.1126/science.290.5500.2323. — Bibcode: 2000Sci...290.2323R. — PMID 11125150. — JSTOR 3081722.
Lawrence K Saul, Sam T Roweis. An Introduction to Locally Linear Embedding // Journal of Machine Learning. — 2001. — ISSN 1533-7928.
Aapo Hyvärinen, Erkki Oja. Independent Component Analysis: Algorithms and Applications // Neural Networks. — 2000. — Т. 13, вып. 4. — doi:10.1016/s0893-6080(00)00026-5. — PMID 10946390.
Honglak Lee, Alexis Battle, Rajat Raina, Andrew Y Ng. Efficient sparse coding algorithms // Advances in Neural Information Processing Systems. — 2007.
Michal Aharon, Michael Elad, Alfred Bruckstein. K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation // IEEE Trans. Signal Process.. — 2006. — Т. 54, вып. 11. — doi:10.1109/TSP.2006.881199. — Bibcode: 2006ITSP...54.4311A.
Yoshua Bengio. Learning Deep Architectures for AI // Foundations and Trends in Machine Learning. — 2009. — Т. 2, вып. 1. — doi:10.1561/2200000006.
Adam Coates, Honglak Lee, Andrew Y. Ng. An analysis of single-layer networks in unsupervised feature learning // Journal of Machine Learning. — 2011. — ISSN 1533-7928. Архивировано 13 августа 2017 года.
Hinton G. E., Salakhutdinov R. R. Reducing the Dimensionality of Data with Neural Networks // Science. — 2006. — Т. 313, вып. 5786. — doi:10.1126/science.1127647. — Bibcode: 2006Sci...313..504H. — PMID 16873662.
Honglak Lee, Chaitanya Ekanadham, Andrew Ng. Sparse deep belief net model for visual area V2 // Advances in Neural Information Processing Systems. — 2008.

[_bf99a9c5f65574f0-1] Bengio, Courville, Vincent, 2013, с. 1798–1828.

[_5252b4b3dd02faf1-2] Srebro, Rennie, Jaakkola, 2004.

[_751a91a35544e1bb-3] 3,0 ^3,1 ^3,2 ^3,3 Coates, Lee, Ng, 2011.

[_febf73980fb18bad-4] Csurka, Dance, Fan, Willamowski, Bray, 2004.

[_368d12e3c5a11456-5] Jurafsky, Martin, 2009, с. 145–146.

[_b19ba1c158046f63-6] Mairal, Bach, Ponce, Sapiro, Zisserman, 2009.

[_c1cd5dd82dc7bbbf-7] Liang, 2005, с. 44–52.

[_5c0f97edf5912346-8] 8,0 ^8,1 Turian, Ratinov, Bengio, 2010.

[_1d5a46c485da1512-9] Schwenker, Kestler, Palm, 2001, с. 439–458.

[_5bc66f0ddd875992-10] Coates, Ng, 2012.

[_c8e36c2a249279cc-11] Lin, Wu, 2009, с. 1030–1038.

[_34aa4cfc107d71e7-12] Roweis, Saul, 2000, с. 2323–2326.

[_fbdac7b1d5f02d00-13] 13,0 ^13,1 Saul, Roweis, 2001.

[_682f4c47c8c1afcd-14] Hyvärinen, Oja, 2000, с. 411–430.

[_00e0937b836af3ea-15] Lee, Battle, Raina, Ng, 2007.

[_7297a37a2070e30d-16] Aharon, Elad, Bruckstein, 2006, с. 4311–4322.

[_d0928ce3c03240d2-17] Bengio, 2009, с. 1–127.

[_dfa5c2f043cbc05a-18] 18,0 ^18,1 ^18,2 Hinton, Salakhutdinov, 2006, с. 504–507.

[_2ddeb55dada02fee-19] Lee, Ekanadham, Ng, 2008.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамбли моделей Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG