Критерий хи-квадрат
Материал из MachineLearning.
(→Сложная гипотеза) |
(→Пример 2) |
||
Строка 57: | Строка 57: | ||
== Пример 2 == | == Пример 2 == | ||
+ | '''Задача о бомбардировках Лондона [Лагутин, Т2].''' | ||
+ | Задача возникла в связи с бомбардировками Лондона во время Второй мировой войны. Для улучшения организации оборонительных мероприятий, необходимо было понять цель противника. Для этого территорию города условно разделили сеткой из 24-ёх горизонтальных и 24-ёх вертикальных линий на 576 равных участков. В течении некторого времени в центре организации обороны города собиралась информация о количестве попаданий снарядов в каждый из участков. В итоге были получены следующие данные: | ||
- | + | {| border=1 cellpadding="6" cellspacing="0" | |
+ | |- align="center" | ||
+ | ! Число попаданий | ||
+ | |0 || 1 || 2 || 3 || 4 || 5 || 6 || 7 | ||
+ | |- align="center" | ||
+ | ! Количество участков | ||
+ | |229 || 211 || 93 || 35 || 7 || 0 || 0 || 1 | ||
+ | |} | ||
+ | |||
+ | Гипотеза <tex>H_0</tex>: стрельба случайна (нет "целевых" участков). | ||
Закон редких событий ([[Распределение Пуассона|распределение Пуассона]]) | Закон редких событий ([[Распределение Пуассона|распределение Пуассона]]) | ||
- | <tex>P{S=j}=\frac{\lambda^j}{j!}e^{-\lambda}</tex>, S - число попаданий <tex>\hat{\lambda}=0.924</tex> | + | <tex>P\{S=j\}=\frac{\lambda^j}{j!}e^{-\lambda}</tex>, S - число попаданий <tex>\hat{\lambda}=0.924</tex> |
<tex>\chi^2 = \sum_{j=1}^k \frac{ \left( n_j-E_j \right)^2}{E_j}= 32.6 \sim \chi_{8-1-1}^2</tex> | <tex>\chi^2 = \sum_{j=1}^k \frac{ \left( n_j-E_j \right)^2}{E_j}= 32.6 \sim \chi_{8-1-1}^2</tex> | ||
- | Тогда при уровне значимости <tex>\alpha=0.05</tex> гипотеза <tex>H_0</tex> не выполняется (см. таблицу значений ф-ии <tex>\chi^2_6</tex>). | + | Тогда при уровне значимости <tex>\alpha=0.05</tex> гипотеза <tex>H_0</tex> не выполняется (см. [http://www.statsoft.ru/home/textbook/modules/sttable.html таблицу значений ф-ии <tex>\chi^2_6</tex>]). |
Объединим события (4,5,6,7) с малой частотой попаданий в одно, тогда имеем: | Объединим события (4,5,6,7) с малой частотой попаданий в одно, тогда имеем: | ||
- | 1 | + | {| border=1 cellpadding="6" cellspacing="0" |
+ | |- align="center" | ||
+ | ! Число попаданий | ||
+ | |0 || 1 || 2 || 3 || 4-7 | ||
+ | |- align="center" | ||
+ | ! Количество участков | ||
+ | |229 || 211 || 93 || 35 || 8 | ||
+ | |} | ||
- | <tex>\chi^2 = 1.05 \sim \chi_{5-1-1}^2</tex> | + | <tex>\chi^2 = 1.05 \sim \chi_{5-1-1}^2</tex>, |
тогда при уровне значимости <tex>\alpha=0.05</tex> гипотеза <tex>H_0</tex> верна. | тогда при уровне значимости <tex>\alpha=0.05</tex> гипотеза <tex>H_0</tex> верна. |
Версия 15:07, 10 января 2009
|
Критерий - статистический критерий для проверки гипотезы , что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения.
Определение
Пусть дана случайная величина X .
Гипотеза : с. в. X подчиняется закону распределения .
Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X: . По выборке построим эмпирическое распределение с.в X. Сравнение эмпирического и теоретического распределения (предполагаемого в гипотезе) производится с помощью специально подобранной функции — критерия согласия. Рассмотрим критерий согласия Пирсона (критерий ):
Гипотеза : Хn порождается функцией .
Разделим [a,b] на k непересекающихся интервалов ;
Пусть - количество наблюдений в j-м интервале: ;
- вероятность попадания наблюдения в j-ый интервал при выполнении гипотезы ;
- ожидаемое число попаданий в j-ый интервал;
Статистика: - Распределение хи-квадрат с k-1 степенью свободы.
Проверка гипотезы
В зависимости от значения критерия , гипотеза может приниматься, либо отвергаться:
- , гипотеза выполняется.
- (попадает в левый "хвост" распределения). Следовательно, теоретические и практические значения очень близки. В таком случае, если, к примеру, происходит проверка генератора случайных чисел, который сгенерировал n чисел из отрезка [0,1] и гипотеза : выборка распределена равномерно на [0,1], тогда генератор нельзя называть случайным, т.к. выборка распределена слишком равномерно, но, несмотря на это, гипотеза выполняется.
- (попадает в правый "хвост" распределения) гипотеза отвергается.
Пример 1
Проверим гипотезу : если взять случайную выборку 100 человек из всего населения острова Кипр (генеральной совокупности), где количество мужчин и женщин примерно одинаково (встречаются с одинаковой частотой), то в наблюдаемой выборке отношение количества мужчин и женщин будет соотноситься с частотой как и во всей генеральной выборке(50/50). Пусть в наблюдаемой выборке 46 мужчин и 54 женщины, тогда число степеней свобод и
Т.о. при уровне значимости гипотеза выполняется (см. таблицу значений ф-ии ).
Сложная гипотеза
Гипотеза : Хn порождается функцией - неизвестный параметр. Найдем приближенное значение параметра с помощью метода максимального правдоподобия, основанного на частотах (фиксируем интервалы для ).
- число попаданий значений элементов выборки в j-ый интервал.
,
Теорема Фишера Для проверки сложной гипотезы критерий представляется в виде:
, где
Пример 2
Задача о бомбардировках Лондона [Лагутин, Т2]. Задача возникла в связи с бомбардировками Лондона во время Второй мировой войны. Для улучшения организации оборонительных мероприятий, необходимо было понять цель противника. Для этого территорию города условно разделили сеткой из 24-ёх горизонтальных и 24-ёх вертикальных линий на 576 равных участков. В течении некторого времени в центре организации обороны города собиралась информация о количестве попаданий снарядов в каждый из участков. В итоге были получены следующие данные:
Число попаданий | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|
Количество участков | 229 | 211 | 93 | 35 | 7 | 0 | 0 | 1 |
Гипотеза : стрельба случайна (нет "целевых" участков).
Закон редких событий (распределение Пуассона)
, S - число попаданий
Тогда при уровне значимости гипотеза не выполняется (см. таблицу значений ф-ии ).
Объединим события (4,5,6,7) с малой частотой попаданий в одно, тогда имеем:
Число попаданий | 0 | 1 | 2 | 3 | 4-7 |
---|---|---|---|---|---|
Количество участков | 229 | 211 | 93 | 35 | 8 |
,
тогда при уровне значимости гипотеза верна.
Проблемы
Критерий ошибается на выборках с низкочастотными (редкими) событиями. Решить эту проблему можно отбросив низкочастотные события, либо объединив их с другими событиями. Этот способ называется коррекцией Йетса (Yates' correction).
Литература
Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. (стр. 204,316) — Киев: Морион, 2002.
Лагутин М. Б. Наглядная математическая статистика. (Том 2, стр. 174) — М.: П-центр, 2003.
Кулаичев А. П. Методы и средства комплексного анализа данных. (стр. 162) — М.: Форум–Инфра-М, 2006.