Перейти к содержанию

Статистика (функция выборки)

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

Статистика — измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения элементов выборки.

Определение

Пусть задана случайная выборка [math]\displaystyle{ x^m = (x_1,\ldots,x_m) }[/math] наблюдений [math]\displaystyle{ x_i \in X }[/math]. Как правило, поскольку речь идёт о задачах математической статистики, распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры).

Статистикой называется произвольная измеримая функция выборки [math]\displaystyle{ T : X^m \to \mathbb{R} }[/math], которая не зависит от неизвестных параметров распределения.

Условие измеримости статистики означает, что эта функция является случайной величиной, то есть определены вероятности её попадания в интервалы и другие борелевские множества на прямой.

Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, то есть исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно — основывать на этом значении оценки и прочие статистические выводы.

Пример

Предположим, что имеется числовая выборка [math]\displaystyle{ x^m = ( x_1, x_2, \ldots, x_m ) }[/math], элементы которой имеют нормальное распределение [math]\displaystyle{ \mathcal{N}( a, \sigma ) }[/math]. Допустим, что значение параметра [math]\displaystyle{ a }[/math] (математического ожидания) известно, то есть это некоторое конкретное число, а значение среднеквадратичного отклонения [math]\displaystyle{ \sigma }[/math] неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика:

[math]\displaystyle{ T=\frac{1}{m}\sum_{i=1}^m(x_i-a)^2. }[/math]

Однако если значение параметра [math]\displaystyle{ a }[/math] также неизвестно, то данная функция не является статистикой. В этом случае её по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание [math]\displaystyle{ T }[/math] равно [math]\displaystyle{ \sigma^2 }[/math]), однако вычислить её числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра [math]\displaystyle{ \sigma }[/math] строится другим способом (см. ниже).

Ниже приведены примеры некоторых часто используемых статистик. Все они предполагают, что наблюдения [math]\displaystyle{ x_i }[/math] являются числовыми, [math]\displaystyle{ X = \mathbb{R} }[/math].

В последние годы активно развивается также статистика объектов нечисловой природы.

Статистики, используемые для оценки моментов (выборочные моменты)

  • Выборочное среднее:
    [math]\displaystyle{ \bar x = \frac1m \sum_{i=1}^m x_i. }[/math]
  • Выборочная дисперсия:
    [math]\displaystyle{ s^2 = s_m^2 = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^2 }[/math].
  • Несмещённая оценка дисперсии:
    [math]\displaystyle{ s^2 = s_m^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2. }[/math]
  • Выборочный момент [math]\displaystyle{ k }[/math]-го порядка (выборочное среднее — момент первого порядка):
    [math]\displaystyle{ M_k = \frac1m \sum_{i=1}^m x^k_i }[/math].
  • Выборочный центральный момент [math]\displaystyle{ k }[/math]-го порядка (выборочная дисперсия — центральный момент второго порядка):
    [math]\displaystyle{ \overset{\circ}M_k = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^k }[/math].
  • Несмещённые оценки центральных моментов:
    [math]\displaystyle{ \overset{\bullet}M_2 = \frac{m}{m-1} \overset{\circ}M_2 }[/math];
    [math]\displaystyle{ \overset{\bullet}M_3 = \frac{m^2}{(m-1)(m-2)} \overset{\circ}M_3 }[/math];
    [math]\displaystyle{ \overset{\bullet}M_4 = \frac{m(m^2-2m+3)\overset{\circ}M_4 + 3m(2m-3)\overset{\circ}M_2^2}{(m-1)(m-2)(m-3)} }[/math].

Выборочный коэффициент асимметрии

Выборочный коэффициент асимметрии:

[math]\displaystyle{ \gamma_1 = \frac{\overset{\bullet}M_3}{\overset{\bullet}M_2^{3/2}} = \frac{\sqrt{m(m-1)}}{m-2} \left( \frac{\overset{\circ}M_3}{\overset{\circ}M_2^{3/2}} \right) }[/math].

Если плотность распределения симметрична, то [math]\displaystyle{ \gamma_1 = 0 }[/math]. Если левый хвост распределения «тяжелее», то [math]\displaystyle{ \gamma_1 \gt 0 }[/math], если «тяжелее» правый хвост — то [math]\displaystyle{ \gamma_1 \lt 0 }[/math].

Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Выборочный коэффициент эксцесса

Выборочный коэффициент эксцесса:

[math]\displaystyle{ \gamma_2 = \frac{\overset{\bullet}M_4}{\overset{\bullet}M_2^2} - 3 = \frac{m^2-1}{(m-2)(m-3)}\left( \frac{\overset{\circ}M_4}{\overset{\circ}M_2^2} - 3 + \frac6{m+1}\right) }[/math].

Нормальное распределение имеет нулевой эксцесс: [math]\displaystyle{ \gamma_2 = 0 }[/math].

Если хвосты распределения «легче», а пик «острее», чем у нормального распределения, то [math]\displaystyle{ \gamma_2 \gt 0 }[/math].

Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то [math]\displaystyle{ \gamma_2 \lt 0 }[/math].

Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Статистики, связанные с эмпирическим распределением

Эмпирическое распределение случайной величины [math]\displaystyle{ x }[/math], построенное по случайной выборке [math]\displaystyle{ x^m }[/math], есть функция:

[math]\displaystyle{ \displaystyle F_m(x) = \frac1m \sum_{i=1}^m \left[ x_i\lt x \right] }[/math].

При любом фиксированном [math]\displaystyle{ a\in\mathbb{R} }[/math] значение [math]\displaystyle{ F_m(a) }[/math] можно рассматривать как статистику.

Порядковые статистики

Порядковые статистики основаны на вычислении вариационного ряда, который получается из исходной выборки [math]\displaystyle{ x^m = (x_1,\ldots,x_m) }[/math] путём упорядочивания её элементов по возрастанию:

[math]\displaystyle{ x^{(1)} \leqslant x^{(2)} \leqslant \cdots \leqslant x^{(m)} }[/math].

Значение [math]\displaystyle{ x^{(k)} }[/math] называется [math]\displaystyle{ k }[/math]-й порядковой статистикой.

  • Выборочный [math]\displaystyle{ \lambda }[/math]-квантиль при [math]\displaystyle{ 0\lt \lambda \lt 1 }[/math]:
    [math]\displaystyle{ x^{(m\lambda+1)}. }[/math]
  • Размах выборки:
    [math]\displaystyle{ \Delta = x^{(m)} - x^{(1)} }[/math].
  • Выборочная медиана:
    [math]\displaystyle{ \mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1\end{cases} }[/math].

Ранговые статистики

Значение [math]\displaystyle{ r_i }[/math] называется рангом элемента выборки [math]\displaystyle{ x_i }[/math], если [math]\displaystyle{ x_i = x^{(r_i)} }[/math].

Ранговой статистикой называется любая статистика, которая является функцией от рангов элементов [math]\displaystyle{ r_i }[/math], а не от их значений [math]\displaystyle{ x_i }[/math]. Переход от значений к их рангам позволяет строить непараметрические статистические критерии, которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем параметрические статистические критерии.

Средний ранг

Аналогом выборочного среднего является средний ранг:

[math]\displaystyle{ R = \frac1m \sum_{i=1}^m r_i. }[/math]

Линейные ранговые статистики

Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при [math]\displaystyle{ m\to\infty }[/math]. Линейная ранговая статистика в общем случае имеет вид:

[math]\displaystyle{ T = \sum_{i=1}^m a(i,r_i) }[/math],

где [math]\displaystyle{ a(i,j) }[/math] — произвольная заданная числовая матрица размера [math]\displaystyle{ m \times m }[/math].

Литература

Ссылки