Критерий согласия Колмогорова

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

Критерий согласия Колмогорова предназначен для проверки гипотезы о принадлежности выборки некоторому закону распределения, то есть проверки того, что эмпирическое распределение соответствует предполагаемой модели.

Критерий однородности Смирнова используется для проверки гипотезы о принадлежности двух независимых выборок одному закону распределения, то есть о том, что два эмпирических распределения соответствуют одному и тому же закону.

Эти критерии носят имена математиков Андрея Николаевича Колмогорова и Николая Васильевича Смирнова.

Критерий Смирнова о проверке гипотезы об однородности двух эмпирических законов распределения является одним из наиболее часто используемых непараметрических критериев.

Описание

Если в критерии [math]\displaystyle{ \chi^2 }[/math] сопоставляются частоты двух распределений отдельно по каждому разряду, то здесь сопоставляются сначала частоты по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т. д. Таким образом, каждый раз сопоставляются накопленные к данному разряду частоты.

Если различия между двумя распределениями существенны, то в какой-то момент разность накопленных частот достигнет критического значения, и различия можно будет признать статистически достоверными. В формулу критерия [math]\displaystyle{ \lambda }[/math]  включается эта разность. Чем больше эмпирическое значение [math]\displaystyle{ \lambda }[/math], тем более существенными являются различия.

Статистика критерия Колмогорова

Пусть эмпирическая функция распределения (ЭФР) [math]\displaystyle{ F_n }[/math], построенная по выборке [math]\displaystyle{ X=\left(X_1,\;\ldots,\;X_n\right) }[/math], имеет вид:

[math]\displaystyle{ F_n(x)=\frac{1}{n}\sum_{i=1}^n I_{X_i\leqslant x}, }[/math]

где [math]\displaystyle{ I_{X_i\leqslant x} }[/math] указывает, попало ли наблюдение [math]\displaystyle{ X_i }[/math] в область [math]\displaystyle{ (-\infty,\;x] }[/math]:

[math]\displaystyle{ I_{X_i\leqslant x}=\begin{cases}1, & X_i\leqslant x; \\ 0, & X_i\gt x.\end{cases} }[/math]

Выполняется проверка того, является ли выборка порождённой случайной величиной [math]\displaystyle{ \xi }[/math] с функцией распределения [math]\displaystyle{ F(x) }[/math]. Статистика критерия для эмпирической функции распределения [math]\displaystyle{ F_n(x) }[/math] определяется следующим образом:

[math]\displaystyle{ D_n=\sup_{x \in \mathbb{R}} |F_n(x)-F(x)|, }[/math]

где под [math]\displaystyle{ \sup }[/math] понимается супремум функции [math]\displaystyle{ {|F_n(x)-F(x)|} }[/math].

Распределение статистики Колмогорова

Обозначим нулевую гипотезу [math]\displaystyle{ H_0 }[/math], как гипотезу о том, что выборка подчиняется распределению [math]\displaystyle{ F(X)\in C^1(\mathbb{X}) }[/math]. Тогда по теореме Колмогорова для введённой статистики справедливо:

[math]\displaystyle{ \forall t\gt 0\colon\lim_{n\to\infty}P(\sqrt{n}D_n\leqslant t)=K(t)=\sum_{j=-\infty}^{+\infty}(-1)^j e^{-2j^2t^2}. }[/math]

Учтём, что критерий имеет правостороннюю критическую область.

Принятие решения по критерию Колмогорова.
Если статистика [math]\displaystyle{ \sqrt{n}D_n }[/math] превышает процентную точку распределения Колмогорова [math]\displaystyle{ K_\alpha }[/math] заданного уровня значимости [math]\displaystyle{ \alpha }[/math], то нулевая гипотеза [math]\displaystyle{ H_0 }[/math] (о соответствии закону [math]\displaystyle{ F(x) }[/math]) отвергается. Иначе гипотеза принимается на уровне [math]\displaystyle{ \alpha }[/math].

Если [math]\displaystyle{ \alpha }[/math] достаточно близко к 1, то [math]\displaystyle{ K_\alpha }[/math] можно приблизительно рассчитать по формуле:

[math]\displaystyle{ K_\alpha\approx\sqrt{-\frac{1}{2}\ln\frac{1-\alpha}{2}}. }[/math]

Асимптотическая мощность критерия равна 1.


Обозначим теперь за нулевую гипотезу [math]\displaystyle{ H_0 }[/math] гипотезу о том, что две исследуемые выборки подчиняются одному распределению случайной величины [math]\displaystyle{ \xi\colon F(X)\in C^1(\mathbb{X}) }[/math].

Теорема Смирнова.
Пусть [math]\displaystyle{ F_{1,\;n}(x),\;F_{2,\;m}(x) }[/math] — эмпирические функции распределения, построенные по независимым выборкам объёмом [math]\displaystyle{ n }[/math] и [math]\displaystyle{ m }[/math] случайной величины [math]\displaystyle{ \xi }[/math]. Тогда, если [math]\displaystyle{ F(x)\in C^1(\mathbb{X}) }[/math], то [math]\displaystyle{ \forall t\gt 0\colon\lim_{n,\;m\to\infty}P\left(\sqrt{\frac{nm}{n+m}}D_{n,\;m}\leqslant t\right)=K(t)=\sum_{j=-\infty}^{+\infty}(-1)^j e^{-2j^2t^2} }[/math], где [math]\displaystyle{ D_{n,\;m}=\sup_x|F_{1,\;n}-F_{2,\;m}| }[/math].

Теорема Смирнова позволяет построить критерий для проверки двух выборок на однородность.

Принятие решения по критерию Смирнова.
Если статистика [math]\displaystyle{ \sqrt{\frac{nm}{n+m}}D_{n,\;m} }[/math] превышает квантиль распределения Колмогорова [math]\displaystyle{ K_{\alpha} }[/math] для заданного уровня значимости [math]\displaystyle{ \alpha }[/math], то нулевая гипотеза [math]\displaystyle{ H_0 }[/math] (об однородности выборок) отвергается. Иначе гипотеза принимается на уровне [math]\displaystyle{ \alpha }[/math].

См. также

Примечание 1

В критерии Колмогорова предпочтительней использование статистики с поправкой Большева в следующем виде [math]\displaystyle{ \sqrt{n}D_n+1/(6\sqrt{n}) }[/math]. Распределение данной статистики уже не так сильно зависит от объема выборки. Зависимостью её распределения от объема выборки [math]\displaystyle{ n }[/math] можно пренебречь при [math]\displaystyle{ n\gt 25 }[/math].

Примечание 2

Классический критерий Колмогорова предназначен для проверки простых гипотез. Если проверяется гипотеза о согласии наблюдаемой выборки с законом, все параметры которого известны, то критерий Колмогорова является свободным от распределения: неважно, с каким законом проверяется согласие. Если проверяемая гипотеза справедлива, предельным распределением статистики Колмогорова является распределение Колмогорова [math]\displaystyle{ K(t) }[/math].

Всё меняется при проверке сложных гипотез, когда по анализируемой выборке оцениваются параметры теоретического закона, согласие с которым проверяется. При проверке сложных гипотез свобода от распределения теряется. При проверке сложных гипотез и справедливости проверяемой гипотезы распределения статистик непараметрических критериев согласия (и критерия Колмогорова) зависят от ряда факторов: от вида наблюдаемого закона, соответствующего проверяемой гипотезе; от типа оцениваемого параметра и числа оцениваемых параметров; в некоторых случаях от конкретного значения параметра (например, в случае семейств гамма- и бета-распределений); от метода оценивания параметров. Различия в предельных распределениях той же самой статистики при проверке простых и сложных гипотез настолько существенны, что пренебрегать этим ни в коем случае нельзя.

О применении критерия Колмогорова при проверке сложных гипотез

Ссылки