Среднеквадратическое отклонение
В теории вероятностей и статистике среднеквадрати́ческое (среднеквадрати́чное) отклоне́ние — наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания (аналога среднего арифметического с бесконечным числом исходов). Обычно он означает квадратный корень из дисперсии случайной величины, но иногда может означать тот или иной вариант оценки этого значения.
В литературе обычно обозначают греческой буквой [math]\displaystyle{ \sigma }[/math] (сигма). В статистике принято два обозначения: [math]\displaystyle{ \sigma }[/math] — для генеральной совокупности и sd (с англ. standard deviation — стандартное отклонение) — для выборки.
Термин
Встречаются также синонимы словосочетания среднеквадрати́ческое отклоне́ние:
- среднее квадрати́ческое отклоне́ние;
- среднеквадрати́чное отклоне́ние;
- квадрати́чное отклоне́ние;
- станда́ртное отклоне́ние;
- станда́ртный разбро́с;
- стандартная неопределённость.
Сам по себе термин среднее квадратическое означает среднее степени 2 (см. ниже).
Основные сведения
Среднеквадратическое отклонение определяется как квадратный корень из дисперсии случайной величины: [math]\displaystyle{ \sigma = \sqrt{D[X]} }[/math].
Среднеквадратическое отклонение измеряется в единицах измерения самой случайной величины и используется при расчёте стандартной ошибки среднего арифметического, при построении доверительных интервалов, при статистической проверке гипотез, при измерении линейной взаимосвязи между случайными величинами.
На практике, когда вместо точного распределения случайной величины в распоряжении имеется лишь выборка, стандартное отклонение, как и математическое ожидание, оценивают (выборочная дисперсия), и делать это можно разными способами. Термины «стандартное отклонение» и «среднеквадратическое отклонение» обычно применяют к квадратному корню из дисперсии случайной величины (определённому через её истинное распределение), но иногда и к различным вариантам оценки этой величины на основании выборки.
В частности, если [math]\displaystyle{ x_i }[/math] — i-й элемент выборки, [math]\displaystyle{ n }[/math] — объём выборки, [math]\displaystyle{ \bar{x} }[/math] — среднее арифметическое выборки (выборочное среднее — оценка математического ожидания величины):
- [math]\displaystyle{ \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i = \frac{1}{n} (x_1+\ldots+x_n), }[/math]
то два основных способа оценки стандартного отклонения записываются нижеследующим образом.
Оценка стандартного отклонения на основании смещённой оценки дисперсии (иногда называемой просто выборочной дисперсией[1]):
- [math]\displaystyle{ S=\sqrt{\frac{1}{n}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}. }[/math]
Это в буквальном смысле среднее квадратическое разностей измеренных значений и среднего.
Оценка стандартного отклонения на основании несмещённой оценки дисперсии (подправленной выборочной дисперсии[1], в ГОСТ Р 8.736-2011 — «среднее квадратическое отклонение»):
- [math]\displaystyle{ S_0=\sqrt{\frac{n}{n-1}S^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}. }[/math]
Само по себе, однако, [math]\displaystyle{ S_0 }[/math] не является несмещённой оценкой квадратного корня из дисперсии, то есть извлечение квадратного корня «портит» несмещённость.
Обе оценки являются состоятельными[1].
Кроме того, среднеквадратическим отклонением называют математическое ожидание квадрата разности истинного значения случайной величины и её оценки для некоторого метода оценки[2]. Если оценка несмещённая (выборочное среднее — как раз несмещённая оценка для случайной величины), то эта величина равна дисперсии этой оценки.
Среднеквадратичное отклонение среднего
Среднее значение выборки также является случайной величиной с оценкой среднеквадратичного отклонения[2][нет в источнике]
[math]\displaystyle{ S_\bar{x}=S_0/\sqrt{n}=\sqrt{\frac{1}{n(n-1)}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}. }[/math]
Правило трёх сигм
Правило трёх сигм ([math]\displaystyle{ 3\sigma }[/math]) гласит: вероятность того, что любая случайная величина отклонится от своего среднего значения менее чем на [math]\displaystyle{ 3\sigma }[/math], — [math]\displaystyle{ P(|\xi - E\xi\mid\lt 3\sigma)\geq \frac{8}{9} }[/math].
Практически все значения нормально распределённой случайной величины лежат в интервале [math]\displaystyle{ \left(\mu-3\sigma;\mu+3\sigma\right) }[/math], где [math]\displaystyle{ \mu=E\xi }[/math] — математическое ожидание случайной величины. Более строго — приблизительно с вероятностью 0,9973 значение нормально распределённой случайной величины лежит в указанном интервале.
Интерпретация величины среднеквадратического отклонения
Большее значение среднеквадратического отклонения показывает больший разброс значений в представленном множестве со средней величиной множества; меньшее значение, соответственно, показывает, что значения в множестве сгруппированы вокруг среднего значения.
Например, у нас есть три числовых множества: {0, 0, 14, 14}, {0, 6, 8, 14} и {6, 6, 8, 8}. У всех трёх множеств средние значения равны 7, а среднеквадратические отклонения, соответственно, равны 7, 5 и 1. У последнего множества среднеквадратическое отклонение маленькое, так как значения в множестве сгруппированы вокруг среднего значения; у первого множества самое большое значение среднеквадратического отклонения — значения внутри множества сильно расходятся со средним значением.
В общем смысле среднеквадратическое отклонение можно считать мерой неопределённости. К примеру, в физике среднеквадратическое отклонение используется для определения погрешности серии последовательных измерений какой-либо величины. Это значение очень важно для определения правдоподобности изучаемого явления в сравнении с предсказанным теорией значением: если среднее значение измерений сильно отличается от предсказанных теорией значений (большое значение среднеквадратического отклонения), то полученные значения или метод их получения следует перепроверить.
Практическое применение
На практике среднеквадратическое отклонение позволяет оценить, насколько значения из множества могут отличаться от среднего значения.
Экономика и финансы
Среднее квадратическое отклонение доходности портфеля [math]\displaystyle{ \sigma =\sqrt{D[X]} }[/math] отождествляется с риском портфеля.
В техническом анализе среднеквадратическое отклонение используется для построения линий Боллинджера, расчёта волатильности.
Оценка рисков и критика
Среднеквадратическое отклонение широко распространено в финансовой сфере в качестве критерия оценки инвестиционного риска. По мнению американского экономиста Нассима Талеба, этого делать не следует. Так, по теории около двух третей изменений должны укладываться в определённые рамки (среднеквадратические отклонения –1 и +1) и что колебания свыше семи стандартных отклонений практически невозможны. Однако в реальной жизни, по мнению Талеба, всё иначе — скачки отдельных показателей могут превышать 10, 20, а иногда и 30 стандартных отклонений. Талеб считает, что риск-менеджерам следует избегать использования средств и методов, связанных со стандартными отклонениями, таких как регрессионные модели, коэффициент детерминации (R-квадрат) и бета-факторы. Кроме того, по мнению Талеба, среднеквадратическое отклонение — слишком сложный для понимания метод. Он считает, что тот, кто пытается оценить риск с помощью единственного показателя, обречён на неудачу[3].
Климат
Предположим, существуют два города с одинаковой средней максимальной дневной температурой, но один расположен на побережье, а другой внутри континента. Известно, что в городах, расположенных на побережье, множество различных максимальных дневных температур меньше, чем у городов, расположенных внутри континента. Поэтому среднеквадратическое отклонение максимальных дневных температур у прибрежного города будет меньше, чем у второго города, несмотря на то, что среднее значение этой величины у них одинаковое, что на практике означает, что вероятность того, что максимальная температура воздуха каждого конкретного дня в году будет сильнее отличаться от среднего значения, выше у города, расположенного внутри континента.
Спорт
Предположим, что есть несколько футбольных команд, которые оцениваются по некоторому набору параметров, например, количеству забитых и пропущенных голов, голевых моментов и т. п. Наиболее вероятно, что лучшая в этой группе команда будет иметь лучшие значения по большему количеству параметров. Чем меньше у команды среднеквадратическое отклонение по каждому из представленных параметров, тем предсказуемее является результат команды, такие команды являются сбалансированными. С другой стороны, у команды с большим значением среднеквадратического отклонения сложно предсказать результат, что в свою очередь объясняется дисбалансом, например, сильной защитой, но слабым нападением.
Использование среднеквадратического отклонения параметров команды позволяет в той или иной мере предсказать результат матча двух команд, оценивая сильные и слабые стороны команд, а значит, и выбираемых способов борьбы.
Пример
Предположим, что интересующая нас группа (генеральная совокупность) это класс из восьми учеников, которым выставляются оценки по 10-бальной системе. Так как мы оцениваем всю группу, а не её выборку, можно использовать стандартное отклонение на основании смещённой оценки дисперсии. Для этого берём квадратный корень из среднего арифметического квадратов отклонений величин от их среднего значения.
Пусть оценки учеников класса следующие:
- [math]\displaystyle{ 2,\ 4,\ 4,\ 4,\ 5,\ 5,\ 7,\ 9. }[/math]
Тогда средняя оценка равна:
- [math]\displaystyle{ \mu = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5 }[/math]
Вычислим квадраты отклонений оценок учеников от их средней оценки:
- [math]\displaystyle{ \begin{array}{lll} (2-5)^2 = (-3)^2 = 9 && (5-5)^2 = 0^2 = 0 \\ (4-5)^2 = (-1)^2 = 1 && (5-5)^2 = 0^2 = 0 \\ (4-5)^2 = (-1)^2 = 1 && (7-5)^2 = 2^2 = 4 \\ (4-5)^2 = (-1)^2 = 1 && (9-5)^2 = 4^2 = 16 \\ \end{array} }[/math]
Среднее арифметическое этих значений называется дисперсией:
- [math]\displaystyle{ \sigma^2 = \frac{9 + 1 + 1 + 1 + 0 + 0 + 4 + 16}{8} = 4 }[/math]
Стандартное отклонение равно квадратному корню дисперсии:
- [math]\displaystyle{ \sigma = \sqrt{ 4 } = 2 }[/math]
Эта формула справедлива только если эти восемь значений и являются генеральной совокупностью. Если бы эти данные были случайной выборкой из какой-то большой совокупности (например, оценки восьми случайно выбранных учеников большого города), то в знаменателе формулы для вычисления дисперсии вместо n = 8 нужно было бы поставить n − 1 = 7:
- [math]\displaystyle{ \sigma^2 = \frac{9 + 1 + 1 + 1 + 0 + 0 + 4 + 16}{7} \approx 4{,}57 }[/math]
и стандартное отклонение равнялось бы:
- [math]\displaystyle{ \sigma = \sqrt{ 4{,}57 } \approx 2{,}14 }[/math]
Этот результат называется стандартным отклонением на основании несмещённой оценки дисперсии. Деление на n − 1 вместо n даёт неискажённую оценку дисперсии для больших генеральных совокупностей.
См. также
- Дисперсия случайной величины
- Генеральная совокупность
- Выборка
- Вариация (статистика)
- Абсолютное отклонение
Примечания
- ↑ 1,0 1,1 1,2 Ивченко Г. И., Медведев Ю. И. Введение в математическую статистику. — М. : Издательство ЛКИ, 2010. — §2.2. Выборочные моменты: точная и асимптотическая теория. — ISBN 978-5-382-01013-7.
- ↑ 2,0 2,1 C. Patrignani et al. (Particle Data Group). 39. STATISTICS. — В: Review of Particle Physics // Chin. Phys. C. — 2016. — Vol. 40. — P. 100001. — doi:10.1088/1674-1137/40/10/100001.
- ↑ Талеб, Гольдштейн, Шпицнагель, 2022, с. 46.
Литература
- Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов / В. Боровиков. — СПб.: Питер, 2003. — 688 с. — ISBN 5-272-00078-1..
- Нассим Талеб, Дениэл Гольдштейн, Марк Шпицнагель. Шесть ошибок руководителей компаний при управлении рисками // Управление рисками (Серия «Harvard Business Review: 10 лучших статей») = On Managing Risk / Коллектив авторов. — М.: Альпина Паблишер, 2022. — С. 41—50. — 206 с. — ISBN 978-5-9614-8186-0.