Перейти к содержанию

Бэггинг

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

Бутстрэп-агрегирование или бэггинг, это метаалгоритм композиционного обучения машин, предназначенный для улучшения стабильности и точности алгоритмов машинного обучения, используемых в статистической классификации и регрессии. Алгоритм также уменьшает дисперсию и помогает избежать переобучения. Хотя он обычно применяется к методам обучения машин на основе деревьев решений, его можно использовать с любым видом метода. Бэггинг является частным видом усреднения модели.

Описание техники

Если задан стандартный тренировочный набор[англ.] [math]\displaystyle{ D }[/math] размера n, бэггинг образует m новых тренировочных наборов [math]\displaystyle{ D_i }[/math], каждый размером n′, путём выборки из D равномерно и с возвратом. При сэмплинге с возвратом некоторые наблюдения могут быть повторены в каждой [math]\displaystyle{ D_i }[/math]. Если n′=n, то для больших n ожидается, что множество [math]\displaystyle{ D_i }[/math] имеет (1 - 1/e) (≈63,2%) долю уникальных экземпляров из D, остальные будут повторениями[1]. Этот вид сэмплинга известен как бутстрэп-сэмплинг. Эти m моделей сглаживаются с помощью вышеупомянутых m бутстрэп-выборок и комбинируются путём усреднения (для регрессии) или голосования (для классификации).

Бэггинг ведёт к «улучшению для нестабильных процедур»[2], в которые входят, например, искусственные нейронные сети, деревья классификации и регрессий и выбор подмножеств в линейной регрессии[3]. Интересное применение бэггинга, показывающее улучшение в обработке изображений, показано в статьях Саху, Аплея и др.[4][5]. С другой стороны, метод может слегка ухудшить эффективность стабильных методов, таких как метод K-ближайших соседей[2].

Пример: Зависимость концентрации озона от температуры

Для иллюстрации основных принципов бэггинга ниже приведён анализ связи между озоном и температурой (данные взяты из книги Руссёва[англ.] и Леруа [6]. Анализ осуществлён на языке программирования R).

Связь между температурой и озоном в этом наборе данных, очевидно, нелинейна. Чтобы описать эту связь, использовались сглаживатели LOESS[англ.] (с полосой пропускания 0,5). Вместо построения единого сглаживателя из всего набора данных извлечено 100 выборок бутстрэпов данных. Каждая выборка отличается от исходного набора данных, но они, всё же, совпадают по распределению и дисперсии. Для каждой бутстрэп-выборки применялся сглаживатель LOESS. Затем сделано предсказание по данным на основе этих 100 сглаживаний. Первые 10 сглаживаний показаны серыми линиями на рисунке ниже. Линии, как видно, очень волнисты и страдают переподгонкой данных – результат полосы слишком мал.

Взяв среднее 100 сглаживателей, которые применялись к подмножествам оригинального набора данных, мы получаем сборный предсказатель (красная линия). Ясно, что среднее более устойчиво и не столь подвержено переобучению.

История

Бэггинг (от англ. Bagging = Bootstrap aggregating) предложил Лео Брейман в 1994 для улучшения классификации путём комбинирования классификации случайно сгенерированных тренировочных наборов. См. технический отчёт №421[3].

См. также

Примечания

Литература