Квантиль

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

Кванти́ль в математической статистике — значение, которое заданная случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль называется процентилем или перцентилем (см. ниже).

Например, фраза «90-й процентиль массы тела у новорожденных мальчиков составляет 4 кг»[1] означает, что 90 % мальчиков рождаются с весом, меньшим либо равным 4 кг, а 10 % мальчиков рождаются с весом, большим либо равным 4 кг.

Определение

Рассмотрим вероятностное пространство [math]\displaystyle{ (\Omega,\;\mathcal{F},\;\mathbb{P}) }[/math] и [math]\displaystyle{ \mathbb{P}^X }[/math] — вероятностная мера, задающая распределение некоторой случайной величины [math]\displaystyle{ X }[/math]. Пусть фиксировано [math]\displaystyle{ \alpha\in(0,\;1) }[/math]. Тогда [math]\displaystyle{ \alpha }[/math]-квантилем (или квантилем уровня [math]\displaystyle{ \alpha }[/math]) распределения [math]\displaystyle{ \mathbb{P}^X }[/math] называется число [math]\displaystyle{ x_\alpha\in\R }[/math], такое что

[math]\displaystyle{ \mathbb{P}(X \leqslant x_\alpha)\leqslant\alpha }[/math] ,
[math]\displaystyle{ \mathbb{ P}(X \geqslant x_\alpha)\geqslant 1 -\alpha. }[/math]

В некоторых источниках (например, в англоязычной литературе) [math]\displaystyle{ k }[/math][math]\displaystyle{ q }[/math]-квантилем называется квантиль уровня [math]\displaystyle{ k/q }[/math], то есть [math]\displaystyle{ (k/q) }[/math]-квантиль в предыдущих обозначениях.

Замечания

[math]\displaystyle{ F_X(x_\alpha)=\alpha, }[/math]

где [math]\displaystyle{ F_X }[/math] — функция распределения [math]\displaystyle{ \mathbb{P}^X }[/math].

  • Очевидно, для непрерывных распределений справедливо следующее широко использующееся при построении доверительных интервалов равенство:
[math]\displaystyle{ \mathbb{P}\left(x_{\frac{1-\alpha}{2}}\leqslant X\leqslant x_{\frac{1+\alpha}{2}}\right)=\alpha. }[/math]
  1. составляем вариационный ряд значений [math]\displaystyle{ V_0\leqslant V_1\leqslant\dots\leqslant V_{N-1} }[/math] (выборка имеет объём [math]\displaystyle{ N }[/math]), а также считаем, что [math]\displaystyle{ V_N=V_{N-1} }[/math] (это необходимо при вычислении 100 % квантили по приводимым ниже формулам);
  2. находим величину [math]\displaystyle{ K=\lfloor\alpha\cdot(N-1)\rfloor }[/math];
  3. сравниваем [math]\displaystyle{ K }[/math] и [math]\displaystyle{ \alpha\cdot N }[/math]:
a) если [math]\displaystyle{ K+1\lt \alpha N }[/math], то полагаем [math]\displaystyle{ x_\alpha=V_{K+1} }[/math];
б) если [math]\displaystyle{ K+1=\alpha N }[/math], то полагаем [math]\displaystyle{ x_{\alpha}=(V_K+V_{K+1})/2 }[/math];
в) если [math]\displaystyle{ K+1\gt \alpha N }[/math], то полагаем [math]\displaystyle{ x_{\alpha}=V_K }[/math].

Заданный таким образом [math]\displaystyle{ \alpha }[/math]-квантиль удовлетворяет приведенному выше определению.

В некоторых случаях (при большом объёме выборки и эмпирическом распределении, близком к непрерывному) вместо равенства [math]\displaystyle{ K+1=\alpha N }[/math] можно использовать приближённое сравнение [math]\displaystyle{ |K+1-\alpha N|\lt 1/N }[/math] (это позволит, например, квантиль уровня 1/3 представлять как 0,33…333 при компьютерной обработке данных).

Медиана и квартили

Квантили нормального распределения
  • 0,25-квантиль называется первым (или нижним) кварти́лем (от лат. quarta — четверть);
  • 0,5-квантиль называется медианой (от лат. mediāna — середина) или вторым кварти́лем;
  • 0,75-квантиль называется третьим (или верхним) кварти́лем.

Интеркварти́льным размахом (англ. Interquartile range) называется разность между третьим и первым квартилями, то есть [math]\displaystyle{ x_{0{,}75}-x_{0{,}25} }[/math]. Интерквартильный размах является характеристикой разброса распределения величины и является робастным аналогом дисперсии. Вместе, медиана и интерквартильный размах могут быть использованы вместо математического ожидания и дисперсии в случае распределений с большими выбросами, либо при невозможности вычисления последних.

Дециль

Деци́ль характеризует распределение величин совокупности, при котором девять значений дециля делят её на десять равных частей. Любая из этих десяти частей составляет 1/10 всей совокупности. Так, первый дециль отделяет 10 % наименьших величин, лежащих ниже дециля, от 90 % наибольших величин, лежащих выше дециля.

Так же, как в случае моды и медианы, у интервального вариационного ряда распределения каждый дециль (и квартиль) принадлежит определённому интервалу и имеет вполне определённое значение[2].

Процентиль

[math]\displaystyle{ p }[/math]проценти́лем называют квантиль уровня [math]\displaystyle{ \alpha = p/100 }[/math]. Соответственно, медиана является 50-м процентилем, а первый и третий квартиль — 25-м и 75-м процентилями соответственно.

В целом, понятия квантиль и процентиль взаимозаменяемы, так же, как и шкалы исчисления вероятностей — абсолютная и процентная.

Процентили также называются перцентилями или центилями.

Квантили стандартного нормального распределения

Вероятность (уровень квантили), % 99,99 99,90 99,00 97,72 97,50 95,00 90,00 84,13 50,00
Квантиль (округлённый до тысячных) 3,719 3,090 2,326 1,999 1,960 1,645 1,282 1,000 0,000

См. также

Примечания

  1. Руководство участкового педиатра. — ГЭОТАР-Медиа, 2008. — С. 44. — 354 с.
  2. Шмойлова Р. А., Минашкин В. Г., Садовникова Н. А. Практикум по теории статистики. — 3-е изд. — М.: Финансы и статистика, 2011. — С. 130—131. — 416 с. — ISBN 9785279032969..

Ссылки