Распределение хи-квадрат

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис
Распределение [math]\displaystyle{ \chi^2 }[/math]. Распределение Пирсона
Chi-square distributionPDF.pngПлотность вероятности
Chi-square distributionCDF.pngФункция распределения
Обозначение [math]\displaystyle{ \chi^2(k) }[/math] или [math]\displaystyle{ \chi^2_k }[/math]
Параметры [math]\displaystyle{ k \gt 0 }[/math] — число степеней свободы
Носитель [math]\displaystyle{ x \in [0; +\infty) }[/math]
Плотность вероятности [math]\displaystyle{ \frac{(1/2)^{k/2}}{\Gamma(k/2)} x^{k/2 - 1} e^{-x/2} }[/math]
Функция распределения [math]\displaystyle{ \frac{\gamma(k/2,x/2)}{\Gamma(k/2)} }[/math]
Математическое ожидание [math]\displaystyle{ k }[/math]
Медиана примерно [math]\displaystyle{ k-2/3 }[/math]
Мода 0 для [math]\displaystyle{ k\lt 2, }[/math]
[math]\displaystyle{ k-2, }[/math] если [math]\displaystyle{ k\geq 2 }[/math]
Дисперсия [math]\displaystyle{ 2\,k }[/math]
Коэффициент асимметрии [math]\displaystyle{ \sqrt{8/k} }[/math]
Коэффициент эксцесса [math]\displaystyle{ 12/k }[/math]
Дифференциальная энтропия

[math]\displaystyle{ \frac{k}{2}\!+\!\ln\left[2\Gamma\left({k \over 2}\right)\right]\!+\!\left(1\!-\!\frac{k}{2}\right)\psi\left(\frac{k}{2}\right) }[/math]

[math]\displaystyle{ \psi(x) = \Gamma'(x) / \Gamma(x). }[/math]
Производящая функция моментов [math]\displaystyle{ (1-2\,t)^{-k/2} }[/math], если [math]\displaystyle{ 2\,t\lt 1 }[/math]
Характеристическая функция [math]\displaystyle{ (1-2\,i\,t)^{-k/2} }[/math]

Распределе́ние [math]\displaystyle{ \chi^2 }[/math] (хи-квадра́т) с [math]\displaystyle{ k }[/math] степеня́ми свобо́ды — распределение суммы квадратов [math]\displaystyle{ k }[/math] независимых стандартных нормальных случайных величин.

Определение

Пусть [math]\displaystyle{ z_1, \ldots, z_k }[/math] — совместно независимые стандартные нормальные случайные величины, то есть: [math]\displaystyle{ z_i \sim N(0,1) }[/math]. Тогда случайная величина

[math]\displaystyle{ x = z_1^2 + \ldots + z_k^2 }[/math]

имеет распределение хи-квадрат с [math]\displaystyle{ k }[/math] степенями свободы, то есть [math]\displaystyle{ x \sim f_{\chi^2(k)}(x) }[/math], или, если записать по-другому:

[math]\displaystyle{ x = \sum\limits_{i=1}^k z_i^2 \sim \chi^2(k) }[/math].

Распределение хи-квадрат является частным случаем гамма-распределения, и его плотность имеет вид:

[math]\displaystyle{ f_{\chi^2(k)}(x) \equiv \Gamma\!\left({k \over 2}, { 2}\right) = \frac{(1/2)^{k \over 2}}{\Gamma\!\left({k \over 2}\right)}\, x^{{k \over 2} - 1}\, e^{-\frac{x}{2}} }[/math],

где [math]\displaystyle{ \Gamma\!\left({k/2}, 2\right) }[/math] означает гамма-распределение, а [math]\displaystyle{ \Gamma\!\left({k/2}\right) }[/math] — гамма-функцию.

Функция распределения имеет следующий вид:

[math]\displaystyle{ F_{\chi^2(k)}(x) = \frac{\gamma\left({k \over 2}, {x \over 2}\right)}{\Gamma\left({k \over 2}\right)} }[/math],

где [math]\displaystyle{ \Gamma }[/math] и [math]\displaystyle{ \gamma }[/math] обозначают соответственно полную и неполную гамма-функции.

Свойства распределения хи-квадрат

  • Распределение хи-квадрат устойчиво относительно суммирования. Если [math]\displaystyle{ Y_1, Y_2 }[/math] независимы, и [math]\displaystyle{ Y_1 \sim \chi^2(k_1) }[/math], а [math]\displaystyle{ Y_2 \sim \chi^2(k_2) }[/math], то [math]\displaystyle{ Y_1 + Y_2 \sim \chi^2(k_1 + k_2) }[/math].
  • Из определения легко получить моменты распределения хи-квадрат. Если [math]\displaystyle{ Y \sim \chi^2(k) }[/math], то
[math]\displaystyle{ \mathbb{E}[Y] = k }[/math],
[math]\displaystyle{ \mathrm{D}[Y] = 2k }[/math].
  • В силу центральной предельной теоремы, при большом числе степеней свободы распределение случайной величины [math]\displaystyle{ Y \sim \chi^2(k) }[/math] может быть приближено нормальным [math]\displaystyle{ Y \approx N( k, 2k ) }[/math]. Более точно
[math]\displaystyle{ \frac{Y-k}{\sqrt{2k}} \to N(0,1) }[/math] по распределению при [math]\displaystyle{ k \to \infty }[/math].

Связь с другими распределениями

  • Если [math]\displaystyle{ X_1 ,\ldots , X_k }[/math] независимые нормальные случайные величины, то есть: [math]\displaystyle{ X_i \sim N(\mu,\sigma^2),\; i=1,\ldots, k;\; \mu }[/math] известно, то случайная величина
[math]\displaystyle{ Y = \sum_{i=1}^k \left(\frac{X_i - \mu}{\sigma}\right)^2 }[/math]

имеет распределение [math]\displaystyle{ \chi^2(k) }[/math].

[math]\displaystyle{ \chi^2(2) \equiv \mathrm{Exp}(1/2) }[/math].
  • Если [math]\displaystyle{ X \sim \chi^2(2k) }[/math], тогда [math]\displaystyle{ X \sim \operatorname{Erlang}(k, 1/2) }[/math] — распределение Эрланга.
  • Если [math]\displaystyle{ Y_1 \sim \chi^2(k_1) }[/math] и [math]\displaystyle{ Y_2 \sim \chi^2(k_2) }[/math], то случайная величина
[math]\displaystyle{ F = \frac{Y_1/k_1}{Y_2 / k_2} }[/math]

имеет распределение Фишера со степенями свободы [math]\displaystyle{ (k_1,k_2) }[/math].

  • [math]\displaystyle{ \chi_k^2 \sim {\chi'}^2_k(0) }[/math] (нецентральное хи-квадрат распределение с параметром нецентральности [math]\displaystyle{ \lambda = 0 }[/math])
  • Если [math]\displaystyle{ X \sim \chi^2(\nu)\, }[/math] и [math]\displaystyle{ c\gt 0 \, }[/math], тогда [math]\displaystyle{ cX \sim \Gamma(k=\nu/2, \theta=2c)\, }[/math]. (гамма-распределение)
  • Если [math]\displaystyle{ X \sim \chi^2_k }[/math], тогда [math]\displaystyle{ \sqrt{X} \sim \chi_k }[/math] (хи распределение)
  • Если [math]\displaystyle{ X \sim \operatorname{Rayleigh}(1)\, }[/math] (распределение Рэлея), тогда [math]\displaystyle{ X^2 \sim \chi^2(2)\, }[/math]
  • Если [math]\displaystyle{ X \sim \operatorname{Maxwell}(1)\, }[/math] (распределение Максвелла), тогда [math]\displaystyle{ X^2 \sim \chi^2(3)\, }[/math]
  • Если [math]\displaystyle{ X \sim \chi^2(\nu_1)\, }[/math] и [math]\displaystyle{ Y \sim \chi^2(\nu_2)\, }[/math] независимы, тогда [math]\displaystyle{ \tfrac{X}{X+Y} \sim \operatorname{Beta}(\tfrac{\nu_1}{2}, \tfrac{\nu_2}{2})\, }[/math] — (бета-распределение)
  • Если [math]\displaystyle{ X \sim \operatorname{U}(0,1)\, }[/math] — (равномерное распределение), тогда [math]\displaystyle{ -2\log(X) \sim \chi^2(2)\, }[/math]
  • [math]\displaystyle{ \chi^2(6)\, }[/math] — преобразование распределения Лапласа
  • Если [math]\displaystyle{ X_i \sim \operatorname{Laplace}(\mu,\beta)\, }[/math], тогда [math]\displaystyle{ \sum_{i=1}^n \frac{2 |X_i-\mu|}{\beta} \sim \chi^2(2n)\, }[/math]
  • хи-квадрат распределение — преобразование распределения Парето
  • t-распределение — преобразование распределения хи-квадрат
  • t-распределение может быть пролучено из распределения хи-квадрат и нормального распределения
  • Если [math]\displaystyle{ X_1 \sim \chi^2(k_1) }[/math] и [math]\displaystyle{ X_2 \sim \chi^2(k_2) }[/math] — независимы, тогда [math]\displaystyle{ X_1 + X_2\sim \chi^2(k_1+k_2) }[/math]. Если [math]\displaystyle{ X_1 }[/math] и [math]\displaystyle{ X_2 }[/math] не являются независимыми, тогда [math]\displaystyle{ X_1+X_2 }[/math] не распределено по закону хи-квадрат.

Вариации и обобщение

Дальнейшим обобщением распределения хи-квадрат является так называемое нецентральное распределение хи-квадрат[en], возникающее в некоторых задачах статистики.

Квантили

Квантиль — это число (аргумент), на котором функция распределения равна заданной, требуемой вероятности. Грубо говоря, квантиль — это результат обращения функции распределения, но есть тонкости с разрывными функциями распределения.

История

Критерий [math]\displaystyle{ \chi^2 }[/math] был предложен Карлом Пирсоном в 1900 году[1]. Его работа рассматривается как фундамент современной математической статистики. Предшественники Пирсона просто строили графики экспериментальных результатов и утверждали, что они правильны. В своей статье Пирсон привёл несколько интересных примеров злоупотреблений статистикой. Он также доказал, что некоторые результаты наблюдений за рулеткой (на которой он проводил эксперименты в течение двух недель в Монте-Карло в 1892 году) были так далеки от ожидаемых частот, что шансы получить их снова при предположении, что рулетка устроена добросовестно, равны одному из 1029.

Общее обсуждение критерия [math]\displaystyle{ \chi^2 }[/math] и обширную библиографию можно найти в обзорной работе Вильяма Дж. Кокрена[2].

Приложения

Распределение хи-квадрат имеет многочисленные приложения при статистических выводах, например при использовании критерия хи-квадрат и при оценке дисперсий. Оно используется в проблеме оценивания среднего нормально распределённой популяции и проблеме оценивания наклона линии регрессии благодаря его роли в распределении Стьюдента. Оно используется в дисперсионном анализе.

Далее приведены примеры ситуаций, в которых распределение хи-квадрат возникает из нормальной выборки:

Название Статистика
распределение хи-квадрат [math]\displaystyle{ \sum_{i=1}^k \left(\frac{X_i-\mu_i}{\sigma_i}\right)^2 }[/math]
нецентральное распределение хи-квадрат [math]\displaystyle{ \sum_{i=1}^k \left(\frac{X_i}{\sigma_i}\right)^2 }[/math]
распределение хи [math]\displaystyle{ \sqrt{\sum_{i=1}^k \left(\frac{X_i-\mu_i}{\sigma_i}\right)^2} }[/math]
нецентральное распределение хи [math]\displaystyle{ \sqrt{\sum_{i=1}^k \left(\frac{X_i}{\sigma_i}\right)^2} }[/math]


Таблица значений χ2 и p-значений

Для любого числа p между 0 и 1 определено p-значение — вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (среднего арифметического, медианы и др.), по сравнению с наблюдаемым, при условии верности нулевой гипотезы. В данном случае это распределение [math]\displaystyle{ \chi^2 }[/math]. Так как значение функции распределения в точке для соответствующих степеней свободы дает вероятность получить значение статистики менее экстремальное, чем эта точка, p-значение можно получить, если отнять от единицы значение функции распределения. Малое p-значение — ниже выбранного уровня значимости — означает статистическую значимость. Этого будет достаточно, чтобы отвергнуть нулевую гипотезу. Чтобы различать значимые и незначимые результаты, обычно используют уровень 0,05.

В таблице даны p-значения для соответствующих значений [math]\displaystyle{ \chi^2 }[/math] у первых десяти степеней свободы.

Степени свободы (df) Значение [math]\displaystyle{ \chi^2 }[/math][3]
1 0,004 0,02 0,06 0,15 0,46 1,07 1,64 2,71 3,84 6,63 10,83
2 0,10 0,21 0,45 0,71 1,39 2,41 3,22 4,61 5,99 9,21 13,82
3 0,35 0,58 1,01 1,42 2,37 3,66 4,64 6,25 7,81 11,34 16,27
4 0,71 1,06 1,65 2,20 3,36 4,88 5,99 7,78 9,49 13,28 18,47
5 1,14 1,61 2,34 3,00 4,35 6,06 7,29 9,24 11,07 15,09 20,52
6 1,63 2,20 3,07 3,83 5,35 7,23 8,56 10,64 12,59 16,81 22,46
7 2,17 2,83 3,82 4,67 6,35 8,38 9,80 12,02 14,07 18,48 24,32
8 2,73 3,49 4,59 5,53 7,34 9,52 11,03 13,36 15,51 20,09 26,12
9 3,32 4,17 5,38 6,39 8,34 10,66 12,24 14,68 16,92 21,67 27,88
10 3,94 4,87 6,18 7,27 9,34 11,78 13,44 15,99 18,31 23,21 29,59
p-значение 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,01 0,001

Эти значения могут быть вычислены через квантиль (обратную функцию распределения) распределения хи-квадрат[4]. Например, квантиль [math]\displaystyle{ \chi^2 }[/math] для p = 0,05 и df = 7 дает [math]\displaystyle{ \chi^2 }[/math]=14,06714 ≈ 14,07, как в таблице сверху. Это означает, что для экспериментального наблюдения семи независимых случайных величин [math]\displaystyle{ x_1,...,x_7 }[/math] при справедливости нулевой гипотезы «каждая величина описывается нормальным стандартным распределением с медианой 0 и стандартным отклонением 1» значение [math]\displaystyle{ x_1^2+...+x_7^2 \gt 14{,}07 }[/math] можно получить лишь в 5 % реализаций. Получение большего значения обычно можно считать достаточным основанием для отбрасывания этой нулевой гипотезы.

В таблице дано округление до сотых; более точные таблицы для большего количества степеней свободы см., например, здесь[5].

См. также

Примечания

  1. Pearson K. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling (англ.) // Philosophical Magazine, Series 5. — Vol. 50, no. 302. — P. 157—175. — doi:10.1080/14786440009463897.
  2. Cochran W. G. The [math]\displaystyle{ \chi^2 }[/math] Test of Goodness of Fit (англ.) // Annals Math. Stat. — 1952. — Vol. 23, no. 3. — P. 315—345.
  3. Chi-Squared Test Архивная копия от 18 ноября 2013 на Wayback Machine Table B.2. Dr. Jacqueline S. McLaughlin at The Pennsylvania State University. Этот источник, в свою очередь, ссылается на: R. A. Fisher and F. Yates, Statistical Tables for Biological Agricultural and Medical Research, 6th ed., Table IV. Два значения были исправлены, 7,82 на 7,81 и 4,60 на 4,61.
  4. R Tutorial: Chi-squared Distribution. Дата обращения: 19 ноября 2019. Архивировано 16 февраля 2021 года.
  5. StatSoft: Таблицы распределений — Хи-квадрат распределение. Дата обращения: 29 января 2020. Архивировано 26 января 2020 года.