Множественный коэффициент корреляции

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

Множественный коэффициент корреляции - Характеризует тесноту линейной корреляционной связи между одной случайной величиной и некоторым множеством случайных величин. Более точно, если (ξ12,...,ξk) - случайный вектор из Rk, тогда коэффициент множественной корреляции [math]\displaystyle{ \rho_{\xi_1\bullet\xi_2,\ldots,\xi_k} }[/math] между ξ1 и ξ2,...,ξk численно равен коэффициенту парной линейной корреляции между величиной ξ1 и её наилучшей линейной аппроксимацией [math]\displaystyle{ M(\xi_1|\xi_2,\ldots,\xi_k) }[/math] по переменным ξ2...,ξk, которая представляет собой линейную регрессию ξ1 на ξ2,...,ξk.

Свойства

Множественный коэффициент корреляции обладает тем свойством, что при условии

[math]\displaystyle{ M\xi_1=M\xi_2=\ldots=M\xi_k=0 }[/math] когда [math]\displaystyle{ \xi_1^* = \beta_2\xi_2 + \beta_3\xi_3 + \cdots + \beta_k\xi_k }[/math] - это регрессия ξ1 на ξ2,...,ξk,

среди всех линейных комбинаций переменных ξ2,...,ξk переменная ξ1 будет иметь максимальный коэффициент корреляции с ξ1*, совпадающий с [math]\displaystyle{ \rho_{\xi_1\bullet\xi_2,\ldots,\xi_k} }[/math]. В этом смысле множественный коэффициент корреляции является частным случаем канонического коэффициента корреляции. При k = 2 множественный коэффициент корреляции по абсолютной величине совпадает с коэффициентом парной линейной корреляции ρ12 между ξ1 и ξ2.

Вычисление

Множественный коэффициент корреляции вычисляется с помощью корреляционной матрицы [math]\displaystyle{ \mathbf{R} = \left \{ \rho_{i,j} \right \}, i,j = 1, \ldots, k }[/math] по формуле

[math]\displaystyle{ \rho_{\xi_1\bullet\xi_2,\ldots,\xi_k}^2 = 1 - \frac{\left\vert R \right\vert}{R_{11}} }[/math],

где [math]\displaystyle{ \left\vert R \right\vert }[/math] - это определитель корреляционной матрицы, а [math]\displaystyle{ R_{11} }[/math] - это алгебраическое дополнение элемента ρ11 = 1; здесь [math]\displaystyle{ 0 \leqslant \rho_{\xi_1\bullet\xi_2,\ldots,\xi_k} \leqslant 1 }[/math]. Если [math]\displaystyle{ \rho_{\xi_1\bullet\xi_2,\ldots,\xi_k} = 1 }[/math], тогда с вероятностью 1 значения ξ1 совпадают с линейной комбинацией ξ2,...,ξk, следовательно, совместное распределение ξ12,...,ξk лежит на гиперплоскости в пространстве Rk. С другой стороны, при [math]\displaystyle{ \rho_{\xi_1\bullet\xi_2,\ldots,\xi_k} = 0 }[/math] все парные коэффициенты корреляции ρ12 = ρ13 = ... = ρ1k = 0 равны нулю, следовательно, значения ξ1 не коррелируют с величинами ξ2,...,ξk. Верно и обратное утверждение. Множественный коэффициент корреляции можно также вычислить по формуле

[math]\displaystyle{ \rho_{\xi_1\bullet\xi_2,\ldots,\xi_k}^2 = 1 - \frac{\sigma_{\xi_1\bullet\xi_2,\ldots,\xi_k}^2}{\sigma_1^2} }[/math],

где [math]\displaystyle{ \sigma_1^2 }[/math] - это дисперсия ξ1, а [math]\displaystyle{ \sigma_{\xi_1\bullet\xi_2,\ldots,\xi_k}^2 = M(\xi_1 - (\beta_2\xi_2 + \beta_3\xi_3 + \cdots + \beta_k\xi_k))^2 }[/math] - дисперсия ξ1 относительно регрессии.

Выборочный множественный коэффициент корреляции

Выборочным аналогом множественного коэффициента корреляции служит величина [math]\displaystyle{ r_{1 \bullet 2,\ldots, k} =\sqrt{1 - \frac{s_{1 \bullet 2,\ldots,k}^2}{s_1^2}} }[/math], где [math]\displaystyle{ s_{1 \bullet 2,\ldots,k}^2 }[/math] и [math]\displaystyle{ s_1^2 }[/math] - это оценки для [math]\displaystyle{ \sigma_{\xi_1\bullet\xi_2,\ldots,\xi_k}^2 }[/math] и [math]\displaystyle{ \sigma_1^2 }[/math], полученные по выборке объема n. Для проверки нуль-гипотезы об отсутствии взаимосвязи используется распределение статистики [math]\displaystyle{ r_{1 \bullet 2,\ldots, k} }[/math]. При условии, что выборка взята из многомерного нормального распределения, величина [math]\displaystyle{ r_{1 \bullet 2,\ldots, k}^2 }[/math] будет обладать бета-распределением с параметрами [math]\displaystyle{ \frac{k-1}{2},\frac{n-k}{2} }[/math], если [math]\displaystyle{ \rho_{\xi_1\bullet\xi_2,\ldots,\xi_k} = 0 }[/math]. Для случая [math]\displaystyle{ \rho_{\xi_1\bullet\xi_2,\ldots,\xi_k} \ne 0 }[/math] тип распределения [math]\displaystyle{ r_{1 \bullet 2,\ldots, k}^2 }[/math] известен, но практически не используется ввиду его громоздкости.

См. также

Литература

  • Крамер Г. Математические методы статистики, пер. с англ., 2 изд., М., 1975;
  • Кендалл М., Стьюард А., Статистические выводы и связи, пер. с англ., М., 1973.