Выборочная функция распределения

Выборочная (эмпири́ческая) фу́нкция распределе́ния в математической статистике — это приближение теоретической функции распределения, построенное с помощью выборки из него.

Определение

Пусть [math]\displaystyle{ X_1,\ldots, X_n }[/math] — выборка объёма [math]\displaystyle{ n }[/math], порождённая случайной величиной [math]\displaystyle{ X }[/math], задаваемой функцией распределения [math]\displaystyle{ F(x) }[/math]. Будем считать, что [math]\displaystyle{ X_i }[/math], где [math]\displaystyle{ i\in \left \{ 1,n \right \}, n\in \mathbb{N} }[/math], — независимые случайные величины, определённые на некотором пространстве элементарных исходов [math]\displaystyle{ \Omega }[/math]. Пусть [math]\displaystyle{ x \in \mathbb{R} }[/math]. Определим функцию [math]\displaystyle{ \hat{F}(x) }[/math] следующим образом:

[math]\displaystyle{ \hat{F}(x) = \frac{1}{n}\sum\limits_{i=1}^n \mathbf{1}_{\{X_i \le x\}} = \frac{1}{n}\sum\limits_{i=1}^n \theta(x-X_i) }[/math],

где [math]\displaystyle{ \mathbf{1}_A }[/math] — индикатор события [math]\displaystyle{ A }[/math], [math]\displaystyle{ \theta(x) }[/math] — функция Хевисайда. Таким образом, значение функции [math]\displaystyle{ \hat{F} }[/math] в точке [math]\displaystyle{ x }[/math] равно относительной частоте элементов выборки, не превосходящих значение [math]\displaystyle{ x }[/math]. Функция [math]\displaystyle{ \hat{F}(x) }[/math] называется выборочной функцией распределения случайной величины [math]\displaystyle{ X }[/math], или эмпирической функцией выборки, и является аппроксимацией для функции [math]\displaystyle{ F(x) }[/math]. Существует теорема Колмогорова, утверждающая, что при [math]\displaystyle{ n \to \infty }[/math] функция [math]\displaystyle{ \hat{F}(x) }[/math] равномерно сходится к [math]\displaystyle{ F(x) }[/math], и указывающая скорость сходимости. Для каждого положительного [math]\displaystyle{ x }[/math], [math]\displaystyle{ \hat{F}(x) }[/math] — случайная величина со значением [math]\displaystyle{ \frac{k}{n}, k\in \left \{ 0,n \right \} }[/math].

Основные свойства

Пусть зафиксирован элементарный исход [math]\displaystyle{ \omega \in \Omega }[/math]. Тогда [math]\displaystyle{ \hat{F}(x,\omega) }[/math] является функцией распределения дискретного распределения, задаваемого следующей функцией вероятности:

[math]\displaystyle{ p_i = p(x_i) = \frac{N_{x_i}}{n}, \; i = 1,\ldots, n }[/math],

где [math]\displaystyle{ x_i = X_i(\omega) }[/math], а [math]\displaystyle{ N_{x} = \sum\limits_{j=1}^n \mathbf{1}_{\{x = x_j\}} }[/math] — количество элементов выборки, равных [math]\displaystyle{ x }[/math]. В частности, если все элементы выборки различны, то [math]\displaystyle{ N_{x_i} = 1,\; \forall i }[/math].

Математическое ожидание этого распределения имеет вид:

[math]\displaystyle{ \sum\limits_{i=1}^n x_i p_i = \sum\limits_{i=1}^n x_i \frac{N_{x_i}}{n} = \overline{X}(\omega) }[/math].

Таким образом, выборочное среднее — это теоретическое среднее выборочного распределения. Аналогично, выборочная дисперсия — это теоретическая дисперсия выборочного распределения.

Случайная величина [math]\displaystyle{ n \hat{F}(x) }[/math] имеет биномиальное распределение:

[math]\displaystyle{ n \hat{F}(x) \sim \mathrm{Bin}(n,F(x)) }[/math].

Выборочная функция распределения [math]\displaystyle{ \hat{F}(x) }[/math] является несмещённой оценкой функции распределения [math]\displaystyle{ F(x) }[/math]:

[math]\displaystyle{ \mathbb{E}\left[\hat{F}(x)\right] = F(x) }[/math].

Дисперсия выборочной функции распределения имеет вид:

[math]\displaystyle{ \mathrm{D}\left[\hat{F}(x)\right] = \frac{F(x)(1-F(x))}{n} }[/math].

Согласно усиленному закону больших чисел, выборочная функция распределения сходится почти наверное к теоретической функции распределения:

[math]\displaystyle{ \hat{F}(x) \to F(x) }[/math] почти наверное при [math]\displaystyle{ n \to \infty }[/math].

Выборочная функция распределения является асимптотически нормальной оценкой теоретической функции распределения. Если [math]\displaystyle{ 0\lt F(x)\lt 1,\; \forall x \in \mathbb{R} }[/math], то

[math]\displaystyle{ \sqrt{n}\left(\hat{F}(x) - F(x)\right) \to \mathrm{N}\left(0,F(x)(1-F(x))\right) }[/math] по распределению при [math]\displaystyle{ n \to \infty }[/math].

См. также