Дисперсионный анализ
Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях[1][2]. В отличие от t-критерия, позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance)[3].
Типы дисперсионного анализа
Суть дисперсионного анализа сводится к изучению влияния одной или нескольких независимых переменных, обычно именуемых факторами, на зависимую переменную. Зависимые переменные представлены значениями абсолютных шкал (шкала отношений). Независимые переменные являются номинативными (шкала наименований), то есть отражают групповую принадлежность, и могут иметь два или более значения (типа, градации или уровня). Примерами независимой переменной
В зависимости от типа и количества переменных различают:
- однофакторный и многофакторный дисперсионный анализ (одна или несколько независимых переменных);
- одномерный и многомерный дисперсионный анализ (одна или несколько зависимых переменных);
- дисперсионный анализ с повторными измерениями (для зависимых выборок);
- дисперсионный анализ с постоянными факторами, случайными факторами, и смешанные модели с факторами обоих типов;
Математическая модель дисперсионного анализа
Математическая модель дисперсионного анализа представляет собой частный случай основной линейной модели. Пусть с помощью методов
где:
— результат измерения -го параметра по методу ; — точное значение -го параметра; — систематическая ошибка измерения -го параметра в группе по методу ; — случайная ошибка измерения -го параметра по методу .
Тогда дисперсии следующих случайных величин:
(где:
выражаются как:
и удовлетворяют тождеству:
Процедура дисперсионного анализа состоит в определении соотношения систематической (межгрупповой) дисперсии к случайной (внутригрупповой) дисперсии в измеряемых данных. В качестве показателя изменчивости используется сумма квадратов отклонения значений параметра от среднего:
Пусть точное значение каждого параметра есть его математическое ожидание, равное среднему генеральной совокупности
Тогда уравнение
Тогда
где
Следовательно
Аналогичным образом раскладываются степени свободы:
и
Тогда дисперсия каждой части, именуемая в модели дисперсионного анализа как «средний квадрат», или
Соотношение межгрупповой и внутригрупповой дисперсий имеет F-распределение (распределение Фишера) и определяется при помощи (F-критерия Фишера):
Принципы и применение
Исходными положениями дисперсионного анализа являются
- нормальное распределение значений изучаемого признака в генеральной совокупности;
- равенство дисперсий в сравниваемых генеральных совокупностях;
- случайный и независимый характер выборки.
Нулевой гипотезой в дисперсионном анализе является утверждение о равенстве средних значений:
При отклонении нулевой гипотезы принимается альтернативная гипотеза о том, что не все средние равны, то есть имеются, по крайней мере, две группы, отличающиеся средними значениями:
При наличии трёх и более групп для определения различий между средними применяются post-hoc t-тесты или метод контрастов.
Однофакторный дисперсионный анализ
Простейшим случаем дисперсионного анализа является одномерный однофакторный анализ для двух или нескольких независимых групп, когда все группы объединены по одному признаку. В ходе анализа проверяется нулевая гипотеза о равенстве средних. При анализе двух групп дисперсионный анализ тождественен двухвыборочному t-критерию Стьюдента для независимых выборок, и величина F-статистики равна квадрату соответствующей t-статистики.
Для подтверждения положения о равенстве дисперсий обычно применяется критерий Ливена (Levene’s test). В случае отвержения гипотезы о равенстве дисперсий основной анализ неприменим. Если дисперсии равны, то для оценки соотношения межгрупповой и внутригрупповой изменчивости применяется F-критерий Фишера:
Если F-статистика превышает критическое значение, то нулевая гипотеза не может быть принята (отвергается) и делается вывод о неравенстве средних. При анализе средних двух групп результаты могут быть интерпретированы непосредственно после применения критерия Фишера.
При наличии трёх и более групп требуется попарное сравнение средних для выявления статистически значимых отличий между ними. Априорный анализ включает метод контрастов, при котором межгрупповая сумма квадратов дробится на суммы квадратов отдельных контрастов:
где
Апостериорный анализ включает post-hoc t-критерии по методам Бонферрони или Шеффе, а также сравнение разностей средних по методу Тьюки. Особенностью post-hoc-тестов является использование внутригруппового среднего квадрата
Помимо оценки средних дисперсионный анализ включает определение коэффициента детерминации
Многофакторный дисперсионный анализ
- Многофакторный анализ позволяет проверить влияние нескольких факторов на зависимую переменную. Линейная модель многофакторной модели имеет вид:
— результат измерения -го параметра; — среднее для -го параметра; — систематическая ошибка измерения -го параметра в группе по методу ; — систематическая ошибка измерения -го параметра в группе по методу ; — систематическая ошибка измерения -го параметра в группе в силу комбинации методов и ; — случайная ошибка измерения -го параметра.
В отличие от однофакторной модели, где имеется одна межгрупповая сумма квадратов, модель многофакторного анализа включает суммы квадратов для каждого фактора в отдельности и суммы квадратов всех взаимодействий между ними. Так, в двухфакторной модели межгрупповая сумма квадратов раскладывается на сумму квадратов фактора
Соответственно трёхфакторная модель включает сумму квадратов фактора
Степени свободы раскладываются аналогичным образом:
и
В ходе анализа проверяются несколько нулевых гипотез:
- гипотеза о равенстве средних под влиянием фактора
: ; - гипотеза о равенстве средних под влиянием фактора
: ; - гипотеза об отсутствии взаимодействия факторов
и : для всех и
Каждая гипотеза проверяется с помощью критерия Фишера:
При отвержении нулевой гипотезы о влиянии отдельного фактора принимается утверждение, что присутствует главный эффект фактора
Примечания
- ↑ Дисперсионный анализ . Дата обращения: 15 марта 2011. Архивировано 23 мая 2012 года.
- ↑ Дисперсионный анализ — статья из Большой советской энциклопедии. Большев, Л. Н..
- ↑ А. Д. Наследов. Математические методы психологического исследования. СПб, 2008. ISBN 5-9268-0275-X
Литература
- Шеффе Г. Дисперсионный анализ, пер. с англ. — М., 1963.
- Смирнов Н. В., Дунин-Барковский И. В. Курс теории вероятностей и математической статистики для технических приложений. — 2 изд.. — М., 1965.