Корреляция
Корреля́ция (от лат. correlatio «соотношение»), или корреляцио́нная зави́симость — статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми), при этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин[1].
Математической мерой корреляции двух случайных величин служит корреляционное отношение [math]\displaystyle{ \mathbf{\eta} }[/math][2] либо коэффициент корреляции [math]\displaystyle{ \mathbf{R} }[/math] (или [math]\displaystyle{ \mathbf{r} }[/math])[1]. В случае если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической[3].
Впервые в научный оборот термин корреляция ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века[4].
Корреляция и взаимосвязь величин
Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанёс пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причинённого ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путём ликвидации пожарных бригад[5]. Корреляция двух величин может свидетельствовать о существовании общей причины, хотя сами явления напрямую не взаимодействуют. Например, обледенение становится причиной как роста травматизма из-за падений, так и увеличения аварийности среди автотранспорта. В этом случае две величины (травматизм из-за падений пешеходов и аварийность автотранспорта) будут коррелировать, хотя они не связаны причинно-следственно друг с другом, а лишь имеют стороннюю общую причину — гололедицу.
В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. Например, зависимость может иметь сложный нелинейный характер, который корреляция не выявляет.
Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором — также и её направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях — это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин.
Показатели корреляции
Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или [math]\displaystyle{ \mathbf{\tau} }[/math] (тау) Кендалла. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими — четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, когда связь между ними линейна (однонаправлена).
Параметрические показатели корреляции
Ковариация
Важной характеристикой совместного распределения двух случайных величин является ковариация (или корреляционный момент). Ковариация является совместным центральным моментом второго порядка[6]. Ковариация определяется как математическое ожидание произведения отклонений случайных величин[7]:
где [math]\displaystyle{ \mathbf{M} }[/math] — математическое ожидание (в англоязычной литературе принято обозначение [math]\displaystyle{ \mathbf{E} }[/math] от expected value).
Свойства ковариации:
- Ковариация двух независимых случайных величин [math]\displaystyle{ \mathbf{X} }[/math] и [math]\displaystyle{ \mathbf{Y} }[/math] равна нулю[8].
Так как [math]\displaystyle{ \mathbf{X} }[/math] и [math]\displaystyle{ \mathbf{Y} }[/math] — независимые случайные величины, то и их отклонения [math]\displaystyle{ \mathbf{X}-\mathbf{M}(X) }[/math] и [math]\displaystyle{ \mathbf{Y}-\mathbf{M}(Y) }[/math] также независимы. Пользуясь тем, что математическое ожидание произведения независимых случайных величин равно произведению математических ожиданий сомножителей, а математическое ожидание отклонения равно нулю, имеем
[math]\displaystyle{ \mathrm{cov}_{XY} = \mathbf{M} \left[(X - \mathbf{M}(X)) (Y - \mathbf{M}(Y))\right] = \mathbf{M}\ (X - \mathbf{M}(X)) \mathbf{M}(Y - \mathbf{M}(Y))=0. }[/math]
- Абсолютная величина ковариации двух случайных величин [math]\displaystyle{ \mathbf{X} }[/math] и [math]\displaystyle{ \mathbf{Y} }[/math] не превышает среднего геометрического их дисперсий: [math]\displaystyle{ |\mathrm{cov}_{XY}|\leqslant\sqrt{\mathrm{D}_{X}\mathrm{D}_{Y}} }[/math][9].
Введём в рассмотрение случайную величину [math]\displaystyle{ \mathbf{Z}_{1}=\mathbf{\sigma}_{Y}\mathbf{X}-\mathbf{\sigma}_{X}\mathbf{Y} }[/math] (где [math]\displaystyle{ \mathbf{\sigma} }[/math] — среднеквадратическое отклонение) и найдём её дисперсию [math]\displaystyle{ \mathbf{D}(Z_{1})=\mathbf{M}[\mathbf{Z}-m_{Z1}]^2 }[/math]. Выполнив выкладки получим:
[math]\displaystyle{ \mathbf{D}(Z_{1})=2\mathbf{\sigma^2}_{X}\mathbf{\sigma^2}_{Y}-2\mathbf{\sigma}_{X}\mathbf{\sigma}_{Y}\mathrm{cov}_{XY}. }[/math]
Любая дисперсия неотрицательна, поэтому
[math]\displaystyle{ 2\mathbf{\sigma^2}_{X}\mathbf{\sigma^2}_{Y}-2\mathbf{\sigma}_{X}\mathbf{\sigma}_{Y}\mathrm{cov}_{XY} \geqslant 0 }[/math]
Отсюда
[math]\displaystyle{ \mathrm{cov}_{XY}\leqslant\mathrm{\sigma}_{X}\mathrm{\sigma}_{Y}. }[/math]
Введя случайную величину [math]\displaystyle{ \mathbf{Z}_{2}=\mathbf{\sigma}_{Y}\mathbf{X}+\mathbf{\sigma}_{X}\mathbf{Y} }[/math], аналогично
[math]\displaystyle{ \mathrm{cov}_{XY}\geqslant - \mathrm{\sigma}_{X}\mathrm{\sigma}_{Y}. }[/math]
Объединив полученные неравенства имеем
[math]\displaystyle{ - \mathrm{\sigma}_{X}\mathrm{\sigma}_{Y}\leqslant \mathrm{cov}_{XY}\leqslant\mathrm{\sigma}_{X}\mathrm{\sigma}_{Y}. }[/math]
Или
[math]\displaystyle{ |\mathrm{cov}_{XY}|\leqslant\mathrm{\sigma}_{X}\mathrm{\sigma}_{Y}. }[/math]
Итак,
[math]\displaystyle{ |\mathrm{cov}_{XY}|\leqslant\sqrt{\mathrm{D}_{X}\mathrm{D}_{Y}}. }[/math]
- Ковариация имеет размерность, равную произведению размерности случайных величин, то есть величина ковариации зависит от единиц измерения независимых величин. Данная особенность ковариации затрудняет её использование в целях корреляционного анализа[8].
Линейный коэффициент корреляции
Для устранения недостатка ковариации был введён линейный коэффициент корреляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле[10][8]:
где [math]\displaystyle{ \overline{X} = \frac1n\sum_{t=1}^n X_t }[/math], [math]\displaystyle{ \overline{Y} = \frac1n\sum_{t=1}^n Y_t }[/math] — среднее значение выборок.
Коэффициент корреляции изменяется в пределах от минус единицы до плюс единицы[11].
Разделив обе части двойного неравенства [math]\displaystyle{ - \mathrm{\sigma}_{X}\mathrm{\sigma}_{Y}\leqslant \mathrm{cov}_{XY}\leqslant\mathrm{\sigma}_{X}\mathrm{\sigma}_{Y} }[/math] на [math]\displaystyle{ \mathbf{\sigma}_{X}\mathbf{\sigma}_{Y} }[/math] получим
[math]\displaystyle{ -1\leqslant \mathbf{r}_{XY}\leqslant\ 1. }[/math]
Линейный коэффициент корреляции связан с коэффициентом регрессии в виде следующей зависимости:[math]\displaystyle{ \mathbf{r}_{XY} = \mathbf{a}_{i} \frac{{\sigma}_{Xi}}{{\sigma}_{Y}}, }[/math] где [math]\displaystyle{ \mathbf{a}_{i} }[/math] — коэффициент регрессии, [math]\displaystyle{ \mathbf\sigma_{Xi} }[/math] — среднеквадратическое отклонение соответствующего факторного признака[12]. Отношение коэффициента регрессии к среднеквадратичному отклонению Y не зависит от единиц измерения Y. При линейной трансформации набора данных [math]\displaystyle{ x^*_i = a + bx_i, \; a \in \mathbb{R}, b \neq 0 }[/math] и [math]\displaystyle{ y^*_i = c + dy_i, \; c \in \mathbb{R}, d \neq 0 }[/math] линейный коэффициент корреляции будет равен [math]\displaystyle{ r_{X^*Y^*} = \frac{bd}{\left | bd \right |}r_{XY} }[/math].
Непараметрические показатели корреляции
Коэффициент ранговой корреляции Кендалла
Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:
[math]\displaystyle{ \tau=\frac{2S}{n(n-1)} }[/math],
где [math]\displaystyle{ S=P-Q }[/math].
[math]\displaystyle{ P }[/math] — суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y.
[math]\displaystyle{ Q }[/math] — суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)
[math]\displaystyle{ \tau\in[-1;1] }[/math]
Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:
[math]\displaystyle{ \tau=\frac{S}{\sqrt{[\frac{n(n-1)}{2}-U_x][\frac{n(n-1)}{2}-U_y}]} }[/math]
[math]\displaystyle{ U_x=\frac{\sum{t(t-1)}}{2} }[/math]
[math]\displaystyle{ U_y=\frac{\sum{t(t-1)}}{2} }[/math]
[math]\displaystyle{ t }[/math] — число связанных рангов в ряду X и Y соответственно.
Коэффициент ранговой корреляции Спирмена
Степень зависимости двух случайных величин (признаков) [math]\displaystyle{ X }[/math] и [math]\displaystyle{ Y }[/math] может характеризоваться на основе анализа получаемых результатов [math]\displaystyle{ (X_1, Y_1), \ldots, (X_n,Y_n) }[/math]. Каждому показателю [math]\displaystyle{ X }[/math] и [math]\displaystyle{ Y }[/math] присваивается ранг. Ранги значений [math]\displaystyle{ X }[/math] расположены в естественном порядке [math]\displaystyle{ i=1, 2, \ldots, n }[/math]. Ранг [math]\displaystyle{ Y }[/math] записывается как [math]\displaystyle{ R_i }[/math] и соответствует рангу той пары [math]\displaystyle{ (X, Y) }[/math], для которой ранг [math]\displaystyle{ X }[/math] равен [math]\displaystyle{ i }[/math]. На основе полученных рангов [math]\displaystyle{ X_i }[/math] и [math]\displaystyle{ Y_i }[/math] рассчитываются их разности [math]\displaystyle{ d_i }[/math] и вычисляется коэффициент корреляции Спирмена:
[math]\displaystyle{ \rho=1-\frac{6\sum d_i^2}{n(n^2-1)} }[/math]
Значение коэффициента меняется от −1 (последовательности рангов полностью противоположны) до +1 (последовательности рангов полностью совпадают). Нулевое значение показывает, что признаки независимы.
Коэффициент корреляции знаков Фехнера
Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.
[math]\displaystyle{ i=\frac{C-H}{C+H} }[/math]
C — число пар, у которых знаки отклонений значений от их средних совпадают.
H — число пар, у которых знаки отклонений значений от их средних не совпадают.
Множественный коэффициент корреляции
Коэффициент множественной ранговой корреляции (конкордации)
[math]\displaystyle{ W=\frac{12S}{m^2(n^3-n)} }[/math]
[math]\displaystyle{ S=\sum^{n}_{i=1} {(\sum^{m}_{j=1} {R_{ij}})^2}-\frac{(\sum^{n}_{i=1} {\sum^{m}_{j=1} {R_{ij}}})^2}{n} }[/math]
[math]\displaystyle{ m }[/math] — число групп, которые ранжируются.
[math]\displaystyle{ n }[/math] — число переменных.
[math]\displaystyle{ R_{ij} }[/math] — ранг [math]\displaystyle{ i }[/math]-фактора у [math]\displaystyle{ j }[/math]-единицы.
Значимость:
[math]\displaystyle{ \chi^2=m(n-1)*W }[/math]
[math]\displaystyle{ {\chi^{2}}_{kp}=(\alpha;(n-1)(m-1)) }[/math]
[math]\displaystyle{ \chi^2 \gt {\chi^{2}}_{kp} }[/math], то гипотеза об отсутствии связи отвергается.
В случае наличия связанных рангов:
[math]\displaystyle{ W=\frac{12S}{m^2(n^3-n)-m \sum^{m}_{j=1} {({t^3}_{j}-t_j)}} }[/math]
[math]\displaystyle{ \chi^2=\frac{12S}{mn(n+1)-\frac{\sum^{m}_{j=1} {({t^3}_{j}-t_j)}}{n-1}} }[/math]
Свойства коэффициента корреляции
- если принять в качестве скалярного произведения двух случайных величин ковариацию [math]\displaystyle{ \langle X, Y \rangle = \mathrm{cov}(X, Y) }[/math], то норма случайной величины будет равна [math]\displaystyle{ \|X\| = \sqrt{\mathrm{D}[X]} }[/math], и следствием неравенства Коши — Буняковского будет:
- [math]\displaystyle{ -1 \leqslant \R_{X,Y} \leqslant 1 }[/math].
- Коэффициент корреляции равен [math]\displaystyle{ \pm 1 }[/math] тогда и только тогда, когда [math]\displaystyle{ X }[/math] и [math]\displaystyle{ Y }[/math] линейно зависимы (исключая события нулевой вероятности, когда несколько точек «выбиваются» из прямой, отражающей линейную зависимость случайных величин):
- [math]\displaystyle{ \R_{X,Y} = \pm 1 \Leftrightarrow Y = kX+b, k\neq0 }[/math],
- где [math]\displaystyle{ k,b\in \mathbb{R} }[/math]. Более того в этом случае знаки [math]\displaystyle{ \R_{X,Y} }[/math] и [math]\displaystyle{ k }[/math] совпадают:
- [math]\displaystyle{ \sgn \R_{X,Y} = \sgn k }[/math].
Рассмотрим случайные величины X и Y c нулевыми средними, и дисперсиями, равными, соответственно, [math]\displaystyle{ \overline{X^2} = \sigma^2_X }[/math] и [math]\displaystyle{ \overline{Y^2} = \sigma^2_Y }[/math]. Подсчитаем дисперсию случайной величины [math]\displaystyle{ \xi = aX + bY }[/math]:
[math]\displaystyle{ \sigma^2_{\xi} = \overline{(aX + bY)^{2}} = a^2 \overline{X^2} + b^2 \overline{Y^2} + 2ab\overline{XY}. }[/math]
Если предположить, что коэффициент корреляции
[math]\displaystyle{ \R_{X,Y} = \frac{\overline{XY}}{\sigma_X \sigma_Y} = \pm 1, }[/math]
то предыдущее выражение перепишется в виде
[math]\displaystyle{ \sigma^2_{\xi} = a^2 \sigma^2_X + b^2 \sigma^2_Y \pm 2ab\sigma_X \sigma_Y = (a\sigma_X \pm b\sigma_Y)^2. }[/math]
Поскольку всегда можно выбрать числа a и b так, чтобы [math]\displaystyle{ a\sigma_X \pm b\sigma_Y = 0 }[/math] (например, если [math]\displaystyle{ \sigma_Y \neq 0 }[/math], то берём произвольное a и [math]\displaystyle{ b = \mp\frac{\sigma_X}{\sigma_Y}\,a }[/math]), то при этих a и b дисперсия [math]\displaystyle{ \sigma^2_{\xi} = 0 }[/math], и значит [math]\displaystyle{ \xi = aX + bY = 0 }[/math] почти наверное. Но это и означает линейную зависимость между X и Y. Доказательство очевидным образом обобщается на случай величин X и Y с ненулевыми средними, только в вышеприведённых выкладках надо будет X заменить на [math]\displaystyle{ X - \overline{X} }[/math], и Y — на [math]\displaystyle{ Y - \overline{Y} }[/math].
- Пусть случайные величины [math]\displaystyle{ X,Y }[/math] такие, что [math]\displaystyle{ D[X]\gt 0 }[/math], [math]\displaystyle{ D[Y]\gt 0 }[/math]. Тогда: [math]\displaystyle{ \R_{X,Y}=\R_{X,M(X|Y)}\R_{M(X|Y),Y} }[/math], где [math]\displaystyle{ M(X|Y) }[/math] - условное математическое ожидание.
- Если [math]\displaystyle{ X,Y }[/math] независимые случайные величины, то [math]\displaystyle{ \R_{X,Y} = 0 }[/math]. Обратное в общем случае неверно.
Корреляционный анализ
Корреляционный анализ — метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто встречается термин «корреляционно-регрессионный анализ», который является более общим статистическим понятием), с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям (используя коэффициент детерминации)[1][2].
Ограничения корреляционного анализа
- Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно не менее чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию, не менее чем в 10 раз превышающую количество факторов). В случае если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний[13].
- Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению. В случае если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения[14].
- Исходная совокупность значений должна быть качественно однородной[13].
- Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора[5].
Область применения
Данный метод обработки статистических данных весьма популярен в экономике, астрофизике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.
Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.
См. также
Примечания
- ↑ 1,0 1,1 1,2 Шмойлова, 2002, с. 272.
- ↑ 2,0 2,1 Елисеева, Юзбашев, 2002, с. 232.
- ↑ Елисеева, Юзбашев, 2002, с. 228.
- ↑ Елисеева, Юзбашев, 2002, с. 228—229.
- ↑ 5,0 5,1 Елисеева, Юзбашев, 2002, с. 229.
- ↑ Суслов, Ибрагимов, Талышева, Цыплаков, 2005, с. 141.
- ↑ Гмурман, 2004, с. 176—177.
- ↑ 8,0 8,1 8,2 Гмурман, 2004, с. 177.
- ↑ Гмурман, 2004, с. 178—179.
- ↑ Шмойлова, 2002, с. 300.
- ↑ Гмурман, 2004, с. 179.
- ↑ Шмойлова, 2002, с. 301.
- ↑ 13,0 13,1 Елисеева, Юзбашев, 2002, с. 230.
- ↑ Шмойлова, 2002, с. 275.
Литература
- Гмурман В. Е.[укр.]. Теория вероятностей и математическая статистика: Учебное пособие для вузов. — 10-е издание, стереотипное. — Москва: Высшая школа, 2004. — 479 с. — ISBN 5-06-004214-6.
- Елисеева И. И., Юзбашев М. М. Общая теория статистики: Учебник / Под ред. И. И. Елисеевой. — 4-е издание, переработанное и дополненное. — Москва: Финансы и Статистика, 2002. — 480 с. — ISBN 5-279-01956-9.
- Корреляционный анализ / А. В. Прохоров // Большая российская энциклопедия : [в 35 т.] / гл. ред. Ю. С. Осипов. — М. : Большая российская энциклопедия, 2004—2017.
- Общая теория статистики: Учебник / Под ред. Р. А. Шмойловой. — 3-е издание, переработанное. — Москва: Финансы и Статистика, 2002. — 560 с. — ISBN 5-279-01951-8.
- Суслов В. И., Ибрагимов Н. М., Талышева Л. П., Цыплаков А. А. Эконометрия. — Новосибирск: СО РАН, 2005. — 744 с. — ISBN 5-7692-0755-8.