Квантиль
Кванти́ль в математической статистике — значение, которое заданная случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль называется процентилем или перцентилем (см. ниже).
Например, фраза «90-й процентиль массы тела у новорожденных мальчиков составляет 4 кг»[1] означает, что 90 % мальчиков рождаются с весом, меньшим либо равным 4 кг, а 10 % мальчиков рождаются с весом, большим либо равным 4 кг.
Определение
Рассмотрим вероятностное пространство [math]\displaystyle{ (\Omega,\;\mathcal{F},\;\mathbb{P}) }[/math] и [math]\displaystyle{ \mathbb{P}^X }[/math] — вероятностная мера, задающая распределение некоторой случайной величины [math]\displaystyle{ X }[/math]. Пусть фиксировано [math]\displaystyle{ \alpha\in(0,\;1) }[/math]. Тогда [math]\displaystyle{ \alpha }[/math]-квантилем (или квантилем уровня [math]\displaystyle{ \alpha }[/math]) распределения [math]\displaystyle{ \mathbb{P}^X }[/math] называется число [math]\displaystyle{ x_\alpha\in\R }[/math], такое что
- [math]\displaystyle{ \mathbb{P}(X \leqslant x_\alpha)\leqslant\alpha }[/math] ,
- [math]\displaystyle{ \mathbb{ P}(X \geqslant x_\alpha)\geqslant 1 -\alpha. }[/math]
В некоторых источниках (например, в англоязычной литературе) [math]\displaystyle{ k }[/math]-м [math]\displaystyle{ q }[/math]-квантилем называется квантиль уровня [math]\displaystyle{ k/q }[/math], то есть [math]\displaystyle{ (k/q) }[/math]-квантиль в предыдущих обозначениях.
Замечания
- Если распределение непрерывно, то [math]\displaystyle{ \alpha }[/math]-квантиль однозначно задаётся уравнением
- [math]\displaystyle{ F_X(x_\alpha)=\alpha, }[/math]
где [math]\displaystyle{ F_X }[/math] — функция распределения [math]\displaystyle{ \mathbb{P}^X }[/math].
- Очевидно, для непрерывных распределений справедливо следующее широко использующееся при построении доверительных интервалов равенство:
- [math]\displaystyle{ \mathbb{P}\left(x_{\frac{1-\alpha}{2}}\leqslant X\leqslant x_{\frac{1+\alpha}{2}}\right)=\alpha. }[/math]
- Для эмпирического распределения [math]\displaystyle{ \alpha }[/math]-квантиль можно задать следующим способом:
- составляем вариационный ряд значений [math]\displaystyle{ V_0\leqslant V_1\leqslant\dots\leqslant V_{N-1} }[/math] (выборка имеет объём [math]\displaystyle{ N }[/math]), а также считаем, что [math]\displaystyle{ V_N=V_{N-1} }[/math] (это необходимо при вычислении 100 % квантили по приводимым ниже формулам);
- находим величину [math]\displaystyle{ K=\lfloor\alpha\cdot(N-1)\rfloor }[/math];
- сравниваем [math]\displaystyle{ K }[/math] и [math]\displaystyle{ \alpha\cdot N }[/math]:
- a) если [math]\displaystyle{ K+1\lt \alpha N }[/math], то полагаем [math]\displaystyle{ x_\alpha=V_{K+1} }[/math];
- б) если [math]\displaystyle{ K+1=\alpha N }[/math], то полагаем [math]\displaystyle{ x_{\alpha}=(V_K+V_{K+1})/2 }[/math];
- в) если [math]\displaystyle{ K+1\gt \alpha N }[/math], то полагаем [math]\displaystyle{ x_{\alpha}=V_K }[/math].
Заданный таким образом [math]\displaystyle{ \alpha }[/math]-квантиль удовлетворяет приведенному выше определению.
В некоторых случаях (при большом объёме выборки и эмпирическом распределении, близком к непрерывному) вместо равенства [math]\displaystyle{ K+1=\alpha N }[/math] можно использовать приближённое сравнение [math]\displaystyle{ |K+1-\alpha N|\lt 1/N }[/math] (это позволит, например, квантиль уровня 1/3 представлять как 0,33…333 при компьютерной обработке данных).
Медиана и квартили
- 0,25-квантиль называется первым (или нижним) кварти́лем (от лат. quarta — четверть);
- 0,5-квантиль называется медианой (от лат. mediāna — середина) или вторым кварти́лем;
- 0,75-квантиль называется третьим (или верхним) кварти́лем.
Интеркварти́льным размахом (англ. Interquartile range) называется разность между третьим и первым квартилями, то есть [math]\displaystyle{ x_{0{,}75}-x_{0{,}25} }[/math]. Интерквартильный размах является характеристикой разброса распределения величины и является робастным аналогом дисперсии. Вместе, медиана и интерквартильный размах могут быть использованы вместо математического ожидания и дисперсии в случае распределений с большими выбросами, либо при невозможности вычисления последних.
Дециль
Деци́ль характеризует распределение величин совокупности, при котором девять значений дециля делят её на десять равных частей. Любая из этих десяти частей составляет 1/10 всей совокупности. Так, первый дециль отделяет 10 % наименьших величин, лежащих ниже дециля, от 90 % наибольших величин, лежащих выше дециля.
Так же, как в случае моды и медианы, у интервального вариационного ряда распределения каждый дециль (и квартиль) принадлежит определённому интервалу и имеет вполне определённое значение[2].
Процентиль
[math]\displaystyle{ p }[/math]-м проценти́лем называют квантиль уровня [math]\displaystyle{ \alpha = p/100 }[/math]. Соответственно, медиана является 50-м процентилем, а первый и третий квартиль — 25-м и 75-м процентилями соответственно.
В целом, понятия квантиль и процентиль взаимозаменяемы, так же, как и шкалы исчисления вероятностей — абсолютная и процентная.
Процентили также называются перцентилями или центилями.
Квантили стандартного нормального распределения
Вероятность (уровень квантили), % | 99,99 | 99,90 | 99,00 | 97,72 | 97,50 | 95,00 | 90,00 | 84,13 | 50,00 |
Квантиль (округлённый до тысячных) | 3,719 | 3,090 | 2,326 | 1,999 | 1,960 | 1,645 | 1,282 | 1,000 | 0,000 |
См. также
- Квантили нормального распределения
- Квантили распределения Стьюдента
- Квантили распределения хи-квадрат
- Нормальное распределение
- Доверительный интервал
- Наукометрия
Примечания
- ↑ Руководство участкового педиатра. — ГЭОТАР-Медиа, 2008. — С. 44. — 354 с.
- ↑ Шмойлова Р. А., Минашкин В. Г., Садовникова Н. А. Практикум по теории статистики. — 3-е изд. — М.: Финансы и статистика, 2011. — С. 130—131. — 416 с. — ISBN 9785279032969..
Ссылки
Для улучшения этой статьи желательно: |