Критерий хи-квадрат
Материал из MachineLearning.
(→Литература) |
(→Определение) |
||
Строка 1: | Строка 1: | ||
{{TOCright}} | {{TOCright}} | ||
+ | Критерий <tex>\chi^2</tex> - статистический критерий для проверки гипотезы <tex> H_0</tex>, что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения. | ||
+ | |||
== Определение == | == Определение == | ||
- | |||
- | |||
- | |||
Пусть дана случайная величина X . | Пусть дана случайная величина X . | ||
'''Гипотеза <tex> H_0 </tex>''': с. в. X подчиняется закону распределения <tex>F(x)</tex>. | '''Гипотеза <tex> H_0 </tex>''': с. в. X подчиняется закону распределения <tex>F(x)</tex>. | ||
- | |||
Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X: | Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X: | ||
<tex>X^n = \left( x_1, \cdots x_n \right), \; x_i \in \left[ a, b \right], \; \forall i=1 \dots n </tex>. | <tex>X^n = \left( x_1, \cdots x_n \right), \; x_i \in \left[ a, b \right], \; \forall i=1 \dots n </tex>. | ||
- | По выборке построим эмпирическое распределение <tex>F^*(x)</tex> с.в X. Сравнение эмпирического <tex>F^*(x)</tex> и теоретического распределения <tex>F(x)</tex> производится с помощью специально подобранной | + | По выборке построим эмпирическое распределение <tex>F^*(x)</tex> с.в X. Сравнение эмпирического <tex>F^*(x)</tex> и теоретического распределения <tex>F(x)</tex> (предполагаемого в гипотезе) производится с помощью специально подобранной функции — [[Критерий согласия|критерия согласия]]. Рассмотрим критерий согласия Пирсона (критерий <tex>\chi^2</tex>): |
- | + | ||
'''Гипотеза <tex> H_0^* </tex>''': Х<sup>n</sup> порождается функцией <tex>F^*(x)</tex>. | '''Гипотеза <tex> H_0^* </tex>''': Х<sup>n</sup> порождается функцией <tex>F^*(x)</tex>. |
Версия 13:48, 10 января 2009
|
Критерий - статистический критерий для проверки гипотезы , что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения.
Определение
Пусть дана случайная величина X .
Гипотеза : с. в. X подчиняется закону распределения .
Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X: . По выборке построим эмпирическое распределение с.в X. Сравнение эмпирического и теоретического распределения (предполагаемого в гипотезе) производится с помощью специально подобранной функции — критерия согласия. Рассмотрим критерий согласия Пирсона (критерий ):
Гипотеза : Хn порождается функцией .
Разделим [a,b] на k непересекающихся интервалов ;
Пусть - количество наблюдений в j-м интервале: ;
- вероятность попадания наблюдения в j-ый интервал при выполнении гипотезы ;
Ожидаемое число попаданий в j-ый интервал;
Статистика: - Распределение хи-квадрат с k-1 степенью свободы.
Проверка гипотезы
В зависимости от значения критерия , гипотеза может приниматься, либо отвергаться:
- , гипотеза выполняется.
- (попадает в левый "хвост" распределения). Следовательно теоретические и практические значения очень близки и гипотеза выполняется.
- (попадает в правый "хвост" распределения) гипотеза отвергается.
Пример 1
Проверим гипотезу : если взять случайную выборку 100 человек из некоторой популяции, в которой количество мужчин и женщин примерно одинаково (встречаются с одинаковой частотой), то в наблюдаемой выборке отношение количества мужчин и женщин будет соотноситься с частотой по всей популяции (50/50). Пусть в наблюдаемой выборке 46 мужчин и 54 женщины, тогда число степеней свобод и
Т.о. при уровне значимости гипотеза выполняется (см. таблицу значений ф-ии ).
Сложная гипотеза
Гипотеза : Хn порождается функцией - неизвестна. Найдем с помощью метода максимального правдоподобия.
, , - фиксированы при .
Теорема Фишера Для проверки сложной гипотезы критерий представляется в виде:
, где
Пример 2
Пусть есть квадрат на местности, разделенный сеткой из 24-ёх горизонтальных и 24-ёх вертикальных линий на 576 равных участков. По квадрату производится артиллерийский обстрел. Подсчитывается количество попаданий снарядов в каждый из участков. Получены следующие данные: 0 попаданий - 229 участков, 1 попадание - 211 участок, 2 - 93, 3 - 35, 4 - 7, 5 и 6 - 0, 7 - 1 попадание. Гипотеза : стрельба случайна (нет "целевых" участков).
Закон редких событий (распределение Пуассона)
, S - число попаданий
Тогда при уровне значимости гипотеза не выполняется (см. таблицу значений ф-ии ).
Объединим события (4,5,6,7) с малой частотой попаданий в одно, тогда имеем:
1 попадание - 211 участок, 2 - 93, 3 - 35, {4,5,6,7} - 8.
тогда при уровне значимости гипотеза верна.
Проблемы
Критерий ошибается на выборках с низкочастотными (редкими) событиями. Решить эту проблему можно отбросив низкочастотные события, либо объединив их с другими событиями. Этот способ называется коррекцией Йетса (Yates' correction).
Литература
Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. (стр. 204,316) — Киев: Морион, 2002. Лагутин М. Б. Наглядная математическая статистика. (Том 2, стр. 174) — М.: П-центр, 2003. Кулаичев А. П. Методы и средства комплексного анализа данных. (стр. 162) — М.: Форум–Инфра-М, 2006.