Бутстрэп (статистика)

Бутстрэп^[1] (англ. bootstrap) в статистике — практический компьютерный метод исследования распределения статистик вероятностных распределений, основанный на многократной генерации выборок методом Монте-Карло на базе имеющейся выборки^[2]. Позволяет просто и быстро оценивать самые разные статистики (доверительные интервалы, дисперсию, корреляцию и так далее) для сложных моделей.

Понятие введено в 1977 году Брэдли Эфроном (первая публикация относится к 1979 году^[3]). Суть метода состоит в том, чтобы по имеющейся выборке построить эмпирическое распределение. Используя это распределение как теоретическое распределение вероятностей, можно с помощью датчика псевдослучайных чисел сгенерировать практически неограниченное количество псевдовыборок произвольного размера, например, того же, как у исходной. На множестве псевдовыборок можно оценить не только анализируемые статистические характеристики, но и изучить их вероятностные распределения. Таким образом, например, оказывается возможным оценить дисперсию или квантили любой статистики независимо от её сложности. Данный метод является методом непараметрической статистики.

Наряду с методами «складного ножа», перекрёстной проверки и перестановочным тестированием (англ. exact test) составляет класс методов генерации повторной выборки (англ. resampling).

Этимология

Слово происходит от выражения: «To pull oneself over a fence by one’s bootstraps.» (дословно — «перебраться через ограду, потянув за ремешки на ботинках» (см. фото справа). Для русскоязычных людей ближе будет история барона Мюнхгаузена, который, потянув себя за волосы, вытащил себя и свою лошадь из болота.

Сам англицизм «бутстрап» используется во многих областях знаний, где нужно передать смысл того, что вы получаете что-то «бесплатно» или магическим образом из ничего получаете нечто стоящее. В области статистики ближайший по этимологии аналог термина — «самовытягивание».

Вводный пример

Пусть имеется два наблюдения:

[math]\displaystyle{ (x_1, y_1) = (1, 1),\ (x_2, y_2) = (2, 3) }[/math]

Предположим, что нам необходимо оценить параметр в регрессии y на x:

[math]\displaystyle{ y_i = \theta x_i + \epsilon_i }[/math]

Оценка параметра, полученная методом наименьших квадратов, будет равна

[math]\displaystyle{ \hat\theta = \frac{x_1y_1 + x_2y_2}{x_1^2 + x_2^2} = \frac{1\times1 + 2\times3}{1^2 + 2^2} = \frac{7}{5} }[/math]

Эмпирическая функция распределения при этом равна

[math]\displaystyle{ (x, y)' = \begin{cases} (1, 1)', \quad p = 1/2 \\ (2, 3)', \quad p = 1/2 \\ \end{cases} }[/math]

При этом данные из двух наблюдений относительно эмпирического распределения будут распределены так:

[math]\displaystyle{ (x_1, y_1)', (x_2, y_2)' = \begin{cases} (1, 1)', (1, 1)', \quad p = 1/4 \\ (1, 1)', (2, 3)', \quad p = 1/4 \\ (2, 3)', (1, 1)', \quad p = 1/4 \\ (2, 3)', (2, 3)', \quad p = 1/4 \\ \end{cases} }[/math]

Это и есть бутстрэповское распределение. Далее можем найти распределение МНК-оценки:

[math]\displaystyle{ \hat\theta^*_2 = \begin{cases} 1, \quad\quad p = 1/4 \\ 7/5, \quad p = 1/2 \\ 3/2, \quad p = 1/4 \\ \end{cases} }[/math]

Применение

Бутстрэп используется для корректировки смещения, тестирования гипотез, построения доверительных интервалов.

Бутстрэповский доверительный интервал: алгоритм

Пусть дана выборка [math]\displaystyle{ (z_1; z_2; \dots; z_n) }[/math] из генеральной совокупности, и требуется оценить параметр [math]\displaystyle{ \theta }[/math]. Необходимо выбрать количество [math]\displaystyle{ B }[/math] псевдовыборок, которые будут формироваться из элементов исходной выборки с возвращением. Для каждой из псевдовыборок [math]\displaystyle{ (z_1^*; z_2^*; \dots; z_n^*)_b, b = 1, 2, \dots, B }[/math] вычисляется псевдостатистика [math]\displaystyle{ \hat\theta^*_b }[/math].

Псевдостатистики [math]\displaystyle{ \hat\theta^*_1, \hat\theta^*_2, \dots, \hat\theta^*_B }[/math] сортируются от меньшей к большей. Квантилями [math]\displaystyle{ q^*_{\alpha_1}, q^*_{1-\alpha_2} }[/math] принимаются значения [math]\displaystyle{ \hat\theta^*_{[B\alpha_1]}, \hat\theta^*_{[B(1-\alpha_2)+1]} }[/math]. С их помощью строится доверительный интервал.

Примечания

↑ Также бутстрап, бутстреп, бутстрэппинг, бутстрапирование.
↑ アーカイブされたコピー (неопр.). Дата обращения: 23 марта 2007. Архивировано 12 июля 2012 года.
↑ Эфрон, 1979.

Литература

Станислав Анатольев. Эконометрика для продолжающих. Курс лекций. — 2002.
Bradley Efron. Bootstrap Methods: Another Look at the Jackknife (англ.) // Annals of Statistics. — 1979. — Vol. 7, no. 1. — P. 1—26. — ISSN 0090-5364. — doi:10.1214/aos/1176344552.

Ссылки

Bootstrap tutorial from ICASSP 99 (недоступная ссылка с 13-05-2013 [4309 дней] — история): Tutorial from a signal processing perspective
Bootstrap sampling tutorial using MS Excel
Animations for bootstrapping i.i.d data (недоступная ссылка с 13-05-2013 [4309 дней] — история) by Yihui Xie using the R
Bootstrapping tutorial

[1] Также бутстрап, бутстреп, бутстрэппинг, бутстрапирование.

[2] アーカイブされたコピー (неопр.). Дата обращения: 23 марта 2007. Архивировано 12 июля 2012 года.

[_f5b58b62ebd00dbd-3] Эфрон, 1979.

[1]

[2]

[3]