Регрессионный анализ

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис
(перенаправлено с «Регрессионная модель»)

Регрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных [math]\displaystyle{ X_1, X_2, ..., X_p }[/math] на зависимую переменную [math]\displaystyle{ Y }[/math]. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Корреляция), а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая(или гиперплоскость), сумма квадратов между которой и данными минимальна.

Цели регрессионного анализа

  1. Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
  2. Предсказание значения зависимой переменной с помощью независимой(-ых)
  3. Определение вклада отдельных независимых переменных в вариацию зависимой

Математическое определение регрессии

Строго регрессионную зависимость можно определить следующим образом. Пусть [math]\displaystyle{ Y, X_1, X_2, \ldots, X_p }[/math] — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений [math]\displaystyle{ X_1=x_1, X_2=x_2, \ldots, X_p=x_p }[/math] определено условное математическое ожидание

[math]\displaystyle{ y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p) }[/math] (уравнение регрессии в общем виде),

то функция [math]\displaystyle{ y(x_1,x_2, \ldots, x_p) }[/math] называется регрессией величины [math]\displaystyle{ Y }[/math] по величинам [math]\displaystyle{ X_1, X_2,\ldots, X_p }[/math], а её графиклинией регрессии [math]\displaystyle{ Y }[/math] по [math]\displaystyle{ X_1, X_2, \ldots, X_p }[/math], или уравнением регрессии.

Зависимость [math]\displaystyle{ Y }[/math] от [math]\displaystyle{ X_1, X_2, \ldots, X_p }[/math] проявляется в изменении средних значений [math]\displaystyle{ Y }[/math] при изменении [math]\displaystyle{ X_1, X_2, \ldots, X_p }[/math]. Хотя при каждом фиксированном наборе значений [math]\displaystyle{ X_1=x_1, X_2=x_2, \ldots, X_p=x_p }[/math] величина [math]\displaystyle{ Y }[/math] остаётся случайной величиной с определённым распределением.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение [math]\displaystyle{ Y }[/math] при изменении [math]\displaystyle{ X_1, X_2, ..., X_p }[/math], используется средняя величина дисперсии [math]\displaystyle{ Y }[/math] при разных наборах значений [math]\displaystyle{ X_1, X_2, ..., X_p }[/math] (фактически речь идёт о мере рассеяния зависимой переменной вокруг линии регрессии).

В матричной форме уравнение регрессии (УР) записывается в виде: [math]\displaystyle{ Y=BX+U }[/math], где [math]\displaystyle{ U }[/math] — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.

Метод наименьших квадратов (расчёт коэффициентов)

На практике линия регрессии чаще всего ищется в виде линейной функции [math]\displaystyle{ Y=b_0+b_1X_1+b_2X_2+\ldots+b_NX_N }[/math] (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых [math]\displaystyle{ {Y} }[/math] от их оценок [math]\displaystyle{ \hat{Y} }[/math] (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

[math]\displaystyle{ \sum_{k=1}^{M} (Y_k-\hat{Y_k})^2 \to \min }[/math]

([math]\displaystyle{ M }[/math] — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда [math]\displaystyle{ Y=y(x_1,x_2,...x_N) }[/math].

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:

[math]\displaystyle{ \sigma(\bar{b})=\frac{1}{2}\sum_{k=1}^{M}{(Y_k-\hat{Y}_k)^2} }[/math]

Условие минимума функции невязки:

[math]\displaystyle{ \left\{ \begin{matrix} \frac{\partial\sigma(\bar{b})}{\partial b_i}=0 \\ i=0...N \end{matrix} \right. \Leftrightarrow \begin{cases} \sum\limits_{i=1}^{M}{y_i}=\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{b_jx_{i,j}}}+b_0M \\ \sum\limits_{i=1}^{M}{y_ix_{i,k}}=\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{b_jx_{i,j}x_{i,k}}}+b_0\sum\limits_{i=1}^{M}{x_{i,k}} \\ k=1,\ldots,N \end{cases} }[/math]

Полученная система является системой [math]\displaystyle{ N+1 }[/math] линейных уравнений с [math]\displaystyle{ N+1 }[/math] неизвестными [math]\displaystyle{ b_0,\ldots,b_N }[/math].

Если представить свободные члены левой части уравнений матрицей

[math]\displaystyle{ B=\left( \begin{matrix} \sum\limits_{i=1}^{M}{y_i} \\ \sum\limits_{i=1}^{M}{y_ix_{i,1}} \\ \vdots \\ \sum\limits_{i=1}^{M}{y_ix_{i,N}} \end{matrix} \right), }[/math]

а коэффициенты при неизвестных в правой части — матрицей

[math]\displaystyle{ A=\left( \begin{matrix} M & \sum\limits_{i=1}^{M}{x_{i,1}} & \sum\limits_{i=1}^{M}{x_{i,2}} & ... & \sum\limits_{i=1}^{M}{x_{i,N}} \\ \sum\limits_{i=1}^{M}{x_{i,1}} & \sum\limits_{i=1}^{M}{x_{i,1}x_{i,1}} & \sum\limits_{i=1}^{M}{x_{i,2}x_{i,1}} & ... & \sum\limits_{i=1}^{M}{x_{i,N}x_{i,1}} \\ \sum\limits_{i=1}^{M}{x_{i,2}} & \sum\limits_{i=1}^{M}{x_{i,1}x_{i,2}} & \sum\limits_{i=1}^{M}{x_{i,2}x_{i,2}} & ... & \sum\limits_{i=1}^{M}{x_{i,N}x_{i,2}} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \sum\limits_{i=1}^{M}{x_{i,N}} & \sum\limits_{i=1}^{M}{x_{i,1}x_{i,N}} & \sum\limits_{i=1}^{M}{x_{i,2}x_{i,N}} & ... & \sum\limits_{i=1}^{M}{x_{i,N}x_{i,N}} \end{matrix} \right), }[/math]

то получаем матричное уравнение: [math]\displaystyle{ A \times X = B }[/math], которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

[math]\displaystyle{ X=\left( \begin{matrix} b_0 \\ b_1 \\ \vdots \\ b_N \end{matrix} \right) }[/math]

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса — Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators — «наилучшие линейные несмещённые оценки»). Большинство исследуемых зависимостей может быть представлено с помощью МНК нелинейными математическими функциями.

Интерпретация параметров регрессии

Параметры [math]\displaystyle{ b_i }[/math] являются частными коэффициентами корреляции; [math]\displaystyle{ (b_i)^2 }[/math] интерпретируется как доля дисперсии Y, объяснённая [math]\displaystyle{ X_i }[/math], при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад [math]\displaystyle{ X_i }[/math] в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.

Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идёт ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида [math]\displaystyle{ X_1X_2 }[/math], [math]\displaystyle{ X_1X_2X_3 }[/math], свидетельствующее о наличии взаимодействий между признаками [math]\displaystyle{ X_1 }[/math], [math]\displaystyle{ X_2 }[/math] и т. д. (см. Мультиколлинеарность).

См. также

Литература

  • Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — 912 с. — ISBN 0-471-17082-8.
  • Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа = Methoden der Korrelation - und Regressiolynsanalyse. — М.: Финансы и статистика, 1981. — 302 с.
  • Захаров С. И., Холмская А. Г. Повышение эффективности обработки сигналов вибрации и шума при испытаниях механизмов // Вестник машиностроения : журнал. — М.: Машиностроение, 2001. — № 10. — С. 31—32. — ISSN 0042-4633.
  • Радченко С. Г. Устойчивые методы оценивания статистических моделей. — К.: ПП «Санспарель», 2005. — 504 с. — ISBN 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152.
  • Радченко С. Г. Методология регрессионного анализа. — К.: «Корнийчук», 2011. — 376 с. — ISBN 978-966-7599-72-0.