Критерий хи-квадрат
Материал из MachineLearning.
Строка 36: | Строка 36: | ||
* <tex>\chi^2 \geq \chi^2_2</tex> (попадает в правый "хвост" распределения) гипотеза <tex>H_0</tex> отвергается. | * <tex>\chi^2 \geq \chi^2_2</tex> (попадает в правый "хвост" распределения) гипотеза <tex>H_0</tex> отвергается. | ||
- | == Пример == | + | == Пример 1 == |
Проверим гипотезу <tex>H_0</tex>: если взять случайную выборку 100 человек из некоторой популяции, в которой количество мужчин и женщин примерно одинаково (встречаются с одинаковой частотой), то в наблюдаемой выборке отношение количества мужчин и женщин будет соотноситься с частотой по всей популяции (50/50). Пусть в наблюдаемой выборке 46 мужчин и 54 женщины, тогда число степеней свобод <tex>k-1=2-1=1</tex> и | Проверим гипотезу <tex>H_0</tex>: если взять случайную выборку 100 человек из некоторой популяции, в которой количество мужчин и женщин примерно одинаково (встречаются с одинаковой частотой), то в наблюдаемой выборке отношение количества мужчин и женщин будет соотноситься с частотой по всей популяции (50/50). Пусть в наблюдаемой выборке 46 мужчин и 54 женщины, тогда число степеней свобод <tex>k-1=2-1=1</tex> и | ||
Строка 42: | Строка 42: | ||
<tex>\chi^2 = \sum_{j=1}^k \frac{ \left( n_j-E_j \right)^2}{E_j}= \frac{\left(46-50 \right)^2}{50}+\frac{\left(54-50 \right)^2}{50}=0,64 </tex> | <tex>\chi^2 = \sum_{j=1}^k \frac{ \left( n_j-E_j \right)^2}{E_j}= \frac{\left(46-50 \right)^2}{50}+\frac{\left(54-50 \right)^2}{50}=0,64 </tex> | ||
- | Т.о. при уровне значимости <tex>\alpha=0.05</tex> гипотеза <tex>H_0</tex> выполняется (см таблицу значений ф-ии <tex>\chi^ | + | Т.о. при уровне значимости <tex>\alpha=0.05</tex> гипотеза <tex>H_0</tex> выполняется (см. таблицу значений ф-ии <tex>\chi^2_1</tex>). |
== Сложная гипотеза == | == Сложная гипотеза == | ||
Строка 53: | Строка 53: | ||
- | '''Теорема Фишера''' <tex>\chi^2 | + | '''Теорема Фишера''' Для проверки сложной гипотезы критерий <tex>\chi^2</tex> представляется в виде: |
+ | <tex>\chi^2 = \sum_{j=1}^k \frac{ \left( n_j-E_j \right)^2}{E_j} \sim \chi_{k-d-1}^2</tex>, где <tex>E_j=n p_j\left(\hat{\theta}\right)</tex> | ||
+ | |||
+ | == Пример 2 == | ||
+ | |||
+ | Пусть есть квадрат на местности, разделенный сеткой из 24-ёх горизонтальных и 24-ёх вертикальных линий на 576 равных участков. По квадрату производится артиллерийский обстрел. Подсчитывается количество попаданий снарядов в каждый из участков. Получены следующие данные: 0 попаданий - 229 участков, 1 попадание - 211 участок, 2 - 93, 3 - 35, 4 - 7, 5 и 6 - 0, 7 - 1 попадание. Гипотеза <tex>H_0</tex>: стрельба случайна (нет "целевых" участков). | ||
+ | |||
+ | Закон редких событий ([[Распределение Пуассона|распределение Пуассона]]) | ||
+ | |||
+ | <tex>P{S=j}=\frac{\lambda^j}{j!}e^{-\lambda}</tex>, S - число попаданий <tex>\hat{\lambda}=0.924</tex> | ||
+ | |||
+ | <tex>\chi^2 = \sum_{j=1}^k \frac{ \left( n_j-E_j \right)^2}{E_j}= 32.6 \sim \chi_{8-1-1}^2</tex> | ||
+ | |||
+ | Тогда при уровне значимости <tex>\alpha=0.05</tex> гипотеза <tex>H_0</tex> не выполняется (см. таблицу значений ф-ии <tex>\chi^2_6</tex>). | ||
+ | |||
+ | Объединим события (4,5,6,7) с малой частотой попаданий в одно, тогда имеем: | ||
+ | |||
+ | 1 попадание - 211 участок, 2 - 93, 3 - 35, {4,5,6,7} - 8. | ||
+ | |||
+ | <tex>\chi^2 = 1.05 \sim \chi_{5-1-1}^2</tex> | ||
+ | |||
+ | огда при уровне значимости <tex>\alpha=0.05</tex> гипотеза H_0</tex> верна. | ||
+ | |||
+ | == Проблемы == | ||
+ | |||
+ | Критерий <tex>\chi^2</tex> ошибается на выборках с низкочастотоными (редкими) событиями. Решить эту проблему можно отбросив либо объединив низкочастотные события с другими событиями. | ||
== Литература == | == Литература == |
Версия 20:27, 8 декабря 2008
|
Определение
Критерий - наиболее часто используемый статистический критерий для проверки гипотезы , что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения.
Пусть дана случайная величина X .
Гипотеза : с. в. X подчиняется закону распределения .
Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X:
.
По выборке построим эмпирическое распределение с.в X. Сравнение эмпирического и теоретического распределения производится с помощью специально подобранной случайной величины — критерия согласия. Рассмотрим критерий согласия Пирсона (критерий ):
Гипотеза : Хn порождается функцией .
Разделим [a,b] на k непересекающихся интервалов ;
Пусть - количество наблюдений в j-м интервале: ;
- вероятность попадания наблюдения в j-ый интервал при выполнении гипотезы ;
Ожидаемое число попаданий в j-ый интервал;
Статистика: - Распределение хи-квадрат с k-1 степенью свободы.
Проверка гипотезы
В зависимости от значения критерия , гипотеза может приниматься, либо отвергаться:
- , гипотеза выполняется.
- (попадает в левый "хвост" распределения) гипотеза отвергается.
- (попадает в правый "хвост" распределения) гипотеза отвергается.
Пример 1
Проверим гипотезу : если взять случайную выборку 100 человек из некоторой популяции, в которой количество мужчин и женщин примерно одинаково (встречаются с одинаковой частотой), то в наблюдаемой выборке отношение количества мужчин и женщин будет соотноситься с частотой по всей популяции (50/50). Пусть в наблюдаемой выборке 46 мужчин и 54 женщины, тогда число степеней свобод и
Т.о. при уровне значимости гипотеза выполняется (см. таблицу значений ф-ии ).
Сложная гипотеза
Гипотеза : Хn порождается функцией - неизвестна. Найдем с помощью метода максимального правдоподобия.
, , - фиксированы при .
Теорема Фишера Для проверки сложной гипотезы критерий представляется в виде:
, где
Пример 2
Пусть есть квадрат на местности, разделенный сеткой из 24-ёх горизонтальных и 24-ёх вертикальных линий на 576 равных участков. По квадрату производится артиллерийский обстрел. Подсчитывается количество попаданий снарядов в каждый из участков. Получены следующие данные: 0 попаданий - 229 участков, 1 попадание - 211 участок, 2 - 93, 3 - 35, 4 - 7, 5 и 6 - 0, 7 - 1 попадание. Гипотеза : стрельба случайна (нет "целевых" участков).
Закон редких событий (распределение Пуассона)
, S - число попаданий
Тогда при уровне значимости гипотеза не выполняется (см. таблицу значений ф-ии ).
Объединим события (4,5,6,7) с малой частотой попаданий в одно, тогда имеем:
1 попадание - 211 участок, 2 - 93, 3 - 35, {4,5,6,7} - 8.
огда при уровне значимости гипотеза H_0</tex> верна.
Проблемы
Критерий ошибается на выборках с низкочастотоными (редкими) событиями. Решить эту проблему можно отбросив либо объединив низкочастотные события с другими событиями.