Линейная регрессия

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис
y=ax+b
Пример линии (красная), построенной с использованием линейной регрессии

Линейная регрессия (англ. Linear regression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной [math]\displaystyle{ y }[/math] от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) [math]\displaystyle{ x }[/math] с линейной функцией зависимости.

Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике. А именно изучены свойства оценок параметров, получаемых различными методами при предположениях о вероятностных характеристиках факторов, и случайных ошибок модели. Предельные (асимптотические) свойства оценок нелинейных моделей также выводятся исходя из аппроксимации последних линейными моделями. С эконометрической точки зрения более важное значение имеет линейность по параметрам, чем линейность по факторам модели.

Определение

Регрессионная модель

[math]\displaystyle{ y=f(x,b)+\varepsilon, ~E(\varepsilon) }[/math],

где [math]\displaystyle{ b }[/math] — параметры модели, [math]\displaystyle{ \varepsilon }[/math] — случайная ошибка модели; называется линейной регрессией, если функция регрессии [math]\displaystyle{ f(x,b) }[/math] имеет вид

[math]\displaystyle{ f(x,b)=b_0+b_1 x_1+b_2 x_2+...+b_k x_k }[/math],

где [math]\displaystyle{ b_j }[/math] — параметры (коэффициенты) регрессии, [math]\displaystyle{ x_j }[/math] — регрессоры (факторы модели), k — количество факторов модели[1].

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна):

[math]\displaystyle{ \forall j \quad ~b_j=\frac {\partial f}{\partial x_j}=const }[/math]

Параметр [math]\displaystyle{ b_0 }[/math], при котором нет факторов, называют часто константой. Формально — это значение функции при нулевом значении всех факторов. Для аналитических целей удобно считать, что константа — это параметр при «факторе», равном 1 (или другой произвольной постоянной, поэтому константой называют также и этот «фактор»). В таком случае, если перенумеровать факторы и параметры исходной модели с учетом этого (оставив обозначение общего количества факторов — k), то линейную функцию регрессии можно записать в следующем виде, формально не содержащем константу:

[math]\displaystyle{ f(x,b)=b_1 x_1 + b_2 x_2 + \ldots + b_k x_k=\sum^k_{j=1}b_j x_j=x^Tb }[/math],

где [math]\displaystyle{ x^T=(x_1,x_2,...,x_k) }[/math] — вектор регрессоров, [math]\displaystyle{ b=(b_1,b_2, \ldots,b_k)^T }[/math] — вектор-столбец параметров (коэффициентов).

Линейная модель может быть как с константой, так и без константы. Тогда в этом представлении первый фактор либо равен единице, либо является обычным фактором соответственно.

Парная и множественная регрессия

В частном случае, когда фактор единственный (без учёта константы), говорят о парной или простейшей линейной регрессии:

[math]\displaystyle{ y_t=a+b x_t+\varepsilon_t }[/math]

Когда количество факторов (без учёта константы) больше одного, то говорят о множественной регрессии:

[math]\displaystyle{ Y = b_0 + b_1 x_{i1} + ... + b_j x_{ij} + ... + b_k x_{ik} + e_i }[/math]

Примеры

Модель затрат организации (без указания случайной ошибки)

[math]\displaystyle{ TC=FC+VC=FC+v \cdot Q }[/math]
  • [math]\displaystyle{ TC }[/math] — общие затраты
  • [math]\displaystyle{ FC }[/math] — постоянные затраты (не зависящие от объёма производства)
  • [math]\displaystyle{ VC }[/math] — переменные затраты, пропорциональные объёму производства
  • [math]\displaystyle{ v }[/math] — удельные или средние (на единицу продукции) переменные затраты
  • [math]\displaystyle{ Q }[/math] — объём производства.

Простейшая модель потребительских расходов (Кейнс)

[math]\displaystyle{ C=a+bY+\varepsilon }[/math]
  • [math]\displaystyle{ C }[/math] — потребительские расходы
  • [math]\displaystyle{ Y }[/math] — располагаемый доход
  • [math]\displaystyle{ b }[/math] — «предельная склонность к потреблению»
  • [math]\displaystyle{ a }[/math] — автономное (не зависящее от дохода) потребление.

Матричное представление

Пусть дана выборка объёмом n наблюдений переменных y и x. Обозначим t — номер наблюдения в выборке. Тогда [math]\displaystyle{ y_t }[/math] — значение переменной y в t-м наблюдении, [math]\displaystyle{ x_{tj} }[/math] — значение j-го фактора в t-м наблюдении. Соответственно, [math]\displaystyle{ x^T_t=(x_{t1},x_{t2},...,x_{tk}) }[/math] — вектор регрессоров в t-м наблюдении. Тогда линейная регрессионная зависимость имеет место в каждом наблюдении:

[math]\displaystyle{ y_t=b_1 x_{t1}+b_2 x_{t2}+...+b_k x_{tk}=\sum^k_{j=1}b_j x_{tj}=x^T_t b+\varepsilon_t~,~E(\varepsilon_t)=0~,~t=1..n }[/math]

Введём обозначения:

[math]\displaystyle{ y= \begin{pmatrix} y_{1}\\ y_{2}\\ ...\\ y_{n}\\ \end{pmatrix} }[/math] — вектор наблюдений зависимой переменой y
[math]\displaystyle{ X= \begin{pmatrix} x_{11}&x_{12}& ...& x_{1k}\\ x_{21}&x_{22}& ...& x_{2k}\\ ...\\ x_{n1}& x_{n2}& ...&x_{nk}\\ \end{pmatrix} }[/math] — матрица факторов.
[math]\displaystyle{ \varepsilon= \begin{pmatrix} \varepsilon_{1}\\ \varepsilon_{2}\\ ...\\ \varepsilon_{n}\\ \end{pmatrix} }[/math] — вектор случайных ошибок.

Тогда модель линейной регрессии можно представить в матричной форме:

[math]\displaystyle{ y=Xb+\varepsilon }[/math]

Классическая линейная регрессия

В классической линейной регрессии предполагается, что наряду со стандартным условием [math]\displaystyle{ E(\varepsilon_t)=0 }[/math] выполнены также следующие предположения (условия Гаусса-Маркова):

  1. Гомоскедастичность (постоянная или одинаковая дисперсия) или отсутствие гетероскедастичности случайных ошибок модели: [math]\displaystyle{ V(\varepsilon_t)=\sigma^2=const }[/math]
  2. Отсутствие автокорреляции случайных ошибок: [math]\displaystyle{ \forall i,j,~ i \not = j ~~cov(\varepsilon_i,\varepsilon_j)=0 }[/math]

Данные предположения в матричном представлении модели формулируются в виде одного предположения о структуре ковариационной матрицы вектора случайных ошибок: [math]\displaystyle{ V(\varepsilon)=\sigma^2 I_n }[/math]

Помимо указанных предположений, в классической модели факторы предполагаются детерминированными (нестохастическими). Кроме того, формально требуется, чтобы матрица [math]\displaystyle{ X }[/math] имела полный ранг ([math]\displaystyle{ k }[/math]), то есть предполагается, что отсутствует полная коллинеарность факторов.

При выполнении классических предположений обычный метод наименьших квадратов позволяет получить достаточно качественные оценки параметров модели, а именно: они являются несмещёнными, состоятельными и наиболее эффективными оценками.

Методы оценки

См. также

Примечания

Литература

  • Е.З. Демиденко. Линейная и нелинейная регрессия. — М.: Финансы и статистика, 1981. — 302 с.
  • Дж. Себер. Линейный регрессионный анализ. — М.: Мир, 1980. — 456 с. — 13 700 экз.