Мультиколлинеарность
Мультиколлинеарность (multicollinearity) — в эконометрике (регрессионный анализ) — наличие линейной зависимости между объясняющими переменными (факторами) регрессионной модели. При этом различают полную коллинеарность, которая означает наличие функциональной (тождественной) линейной зависимости и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами.
Полная коллинеарность приводит к неопределенности параметров в линейной регрессиионной модели независимо от методов оценки. Рассмотрим это на примере следующей линейной модели
[math]\displaystyle{ y=b_1 x_1+b_2 x_2 +b_3 x_3+\varepsilon }[/math]
Пусть факторы этой модели тождественно связаны следующим образом: [math]\displaystyle{ x_1=x_2 + x_3 }[/math]. Тогда рассмотрим исходную линейную модель, в которой к первому коэффициенту добавим произвольное число a, а из двух других коэффициентов это же число вычтем. Тогда имеем (без случайной ошибки):
[math]\displaystyle{ y=(b_1+a) x_1+(b_2-a) x_2 +(b_3-a) x_3=b_1 x_1+b_2 x_2 +b_3 x_3+a(x_1- x_2 - x_3)=b_1 x_1+b_2 x_2 +b_3 x_3 }[/math]
Таким образом, несмотря на относительно произвольное изменение коэффициентов модели мы получили ту же модель. Такая модель принципиально неидентифицируема. Неопределенность существует уже в самой модели. Если рассмотреть 3-мерное пространство коэффициентов, то в этом пространстве вектор истинных коэффициентов в данном случае не единственный, а представляет собой целую прямую линию! Любая точка этой прямой — истинный вектор коэффициентов.
В связи с этим проблема полной коллинеарности факторов решается уже на стадии отбора переменных при моделировании и поэтому к проблеме качества эконометрических оценок параметров отношения не имеет. На практике чаще возникает другая ситуация — сильная корреляция между факторами.
Последствия мультиколлинеарности
Если полная коллинеарность приводит к неопределенности значений параметров, то частичная мультиколлинеарность приводит к неустойчивости их оценок. Неустойчивость выражается в увеличении статистической неопределенности — дисперсии оценок. Это означает, что конкретные результаты оценки могут сильно различаться для разных выборок несмотря на то, что выборки однородны.
Как известно ковариационная матрица оценок параметров множественной регрессии методом наименьших квадратов равна [math]\displaystyle{ \frac {\sigma^2} {n} V^{-1}_x }[/math]. Тем самым чем «меньше» ковариационная матрица (её определитель), тем «больше» ковариационная матрица оценок параметров, и, в частности, больше диагональные элементы этой матрицы, то есть дисперсии оценок параметров. Для большей наглядности рассмотрим это на примере двухфакторной модели:
[math]\displaystyle{ y=b_0+b_1 x_1 + b_2 x_2+\varepsilon }[/math]
Тогда дисперсия оценки параметра, например, при первом факторе равна:
[math]\displaystyle{ \sigma_{\hat{b}_1}^2=\frac {\sigma^2} {n \hat{\sigma}^2_{x_2} (1-\hat{r}^2)} }[/math]
где [math]\displaystyle{ \hat{r} }[/math] — выборочный коэффициент корреляции между факторами.
Здесь наглядно видно, что чем больше по модулю корреляция между факторами, тем больше дисперсия оценок параметров. При [math]\displaystyle{ |r| \rightarrow 1 }[/math] (полная коллинеарность) дисперсия стремится к бесконечности, что соответствует сказанному ранее.
Таким образом, оценки параметров получаются неточными, а значит сложно будет дать интерпретацию влияния тех или иных факторов на объясняемую переменную. При этом на качестве модели в целом мультиколлинеарность не сказывается — она может признаваться статистически значимой, даже тогда, когда все коэффициенты незначимы (это один из признаков мультиколлинеарности).
Обнаружение мультиколлинеарности
Косвенными признаками мультиколлинеарности являются высокие стандартные ошибки оценок параметров модели, малые t-статистики (то есть незначимость коэффициентов), неправильные знаки оценок, при том, что модель в целом признается статистически значимой (большое значение F-статистики). О мультиколлинеарности также может свидетельствовать сильное изменение оценок параметров от добавления (или удаления) выборочных данных (если соблюдены требования достаточной однородности выборки).
Для обнаружения мультиколлинеарности факторов можно проанализировать непосредственно корреляционную матрицу факторов. Уже наличие больших по модулю (выше 0,7-0,8) значений коэффициентов парной корреляции свидетельствует о возможных проблемах с качеством получаемых оценок.
Однако, анализ парных коэффициентов корреляции недостаточен. Необходимо проанализировать коэффициенты детерминации регрессий факторов на остальные факторы ([math]\displaystyle{ R^2_i }[/math]). Рекомендуется рассчитывать показатель [math]\displaystyle{ VIF=1/(1-R^2_j) }[/math]. Слишком высокие значения последнего означают наличие мультиколлинеарности.
Способы решения проблемы мультиколлинеарности
Метод главных компонент
Применение метода главных компонент к факторам модели позволяет преобразовать исходные факторы и получить совокупность ортогональных (некоррелированных) факторов. При этом наличие мультиколлинеарности позволит ограничиться небольшим количеством главных компонент. Тем не менее, может возникнуть проблема содержательной интерпретации главных компонент.
Рекурсивный МНК
Ридж-регрессия
Ридж-регрессия или гребневая регрессия предполагает оценку параметров по следующей формуле:
[math]\displaystyle{ \hat{b}=(X^TX+\lambda I)^{-1}X^Ty }[/math]
Добавление параметра [math]\displaystyle{ \lambda }[/math] решает проблему плохой обусловленности матрицы [math]\displaystyle{ X^TX }[/math]. Эти оценки смещены, в отличие от МНК-оценок. Однако доказано, что существует такое [math]\displaystyle{ \lambda }[/math], при котором эти оценки более эффективны, чем оценки МНК (оценки МНК эффективны(имеют наименьшую дисперсию) среди линейных несмещенных оценок). Тем не менее, четких правил выбора этого параметра нет.