Парадокс хи-квадрат
Материал из MachineLearning.
(Новая: Скоро здесь будет статья) |
|||
(6 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
- | + | ==Описание задачи== | |
+ | Рассматривается следующий любопытный пример из области проверки однородности с помощью [[Таблица сопряженности|критерия хи-квадрат]]. В таблицах, приведённых ниже, содержится информация о действии некоторого метода лечения (заключается в приеме определенного лекарства) смертельно опасной болезни | ||
+ | * отдельно на мужчин | ||
+ | * отдельно на женщин | ||
+ | * на больных обоего пола (объединённые результаты) | ||
+ | |||
+ | {| style="width:30%; height:100px" border="1" | ||
+ | ! Мужчины|| Выздоровел || Нет | ||
+ | |- align="center" | ||
+ | ! Принимал | ||
+ | | 700 || 800 | ||
+ | |- align="center" | ||
+ | ! Нет | ||
+ | | 80 | ||
+ | | width=30%| 130 | ||
+ | |} | ||
+ | <br> | ||
+ | {| style="width:30%; height:100px" border="1" | ||
+ | ! Женщины|| Выздоровела || Нет | ||
+ | |- align="center" | ||
+ | ! Принимала | ||
+ | | 150 || 70 | ||
+ | |- align="center" | ||
+ | ! Нет | ||
+ | | 400 | ||
+ | | width=30%| 280 | ||
+ | |} | ||
+ | <br> | ||
+ | {| style="width:30%; height:100px" border="1" | ||
+ | ! М+Ж|| Выздоровел(а) || Нет | ||
+ | |- align="center" | ||
+ | ! Принимал(а) | ||
+ | | 850 || 870 | ||
+ | |- align="center" | ||
+ | ! Нет | ||
+ | | 480 | ||
+ | |width=30%| 410 | ||
+ | |} | ||
+ | |||
+ | ==Решение задачи== | ||
+ | Используя [[Таблица сопряженности#Частный случай K=L=2|критерий хи-квадрат для анализа таблиц сопряженности]] получим следующие статистики:<br> | ||
+ | * X<sup>2</sup>=5,456 для мужчин | ||
+ | * X<sup>2</sup>=6,125 для женщин | ||
+ | Согласно таблице распределения хи-квадрат с одной степенью свободы находим, что фактические уровни значимости равны 0,02 и 0,01. Это свидетельствует о существенности различия вероятностей выздоровления между теми, кто использовал данный метод лечения и теми, кто его не использовал, т.е. лекарство влияет на выздоровление. | ||
+ | |||
+ | С другой стороны, статистика хи-квадрат для таблицы с объединенными результатами X<sup>2</sup>=4,782, что значимо велико на уровне 0,03, т.е. лекарство не влияет на выздоровление! | ||
+ | |||
+ | Г. Секей пишет: "Аналогично, новое лекарство может оказаться эффективным в каждом из десяти различных госпиталей, но объединение результатов укажет на то, что это лекарство либо бесполезно, либо вредно". | ||
+ | ===Причина парадокса=== | ||
+ | Нехватка данных. <br> | ||
+ | Необходимо, чтобы М<sub>п</sub>=М<sub>н</sub>=Ж<sub>п</sub>=Ж<sub>н</sub> | ||
+ | |||
+ | ==Смотри также== | ||
+ | # [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2008]] | ||
+ | ==Литература== | ||
+ | # Г. Секей "Парадоксы в теории вероятностей и математической статистике" | ||
+ | [[Категория:Энциклопедия анализа данных]] | ||
+ | [[Категория:Анализ таблиц сопряженности]] |
Текущая версия
Содержание |
Описание задачи
Рассматривается следующий любопытный пример из области проверки однородности с помощью критерия хи-квадрат. В таблицах, приведённых ниже, содержится информация о действии некоторого метода лечения (заключается в приеме определенного лекарства) смертельно опасной болезни
- отдельно на мужчин
- отдельно на женщин
- на больных обоего пола (объединённые результаты)
Мужчины | Выздоровел | Нет |
---|---|---|
Принимал | 700 | 800 |
Нет | 80 | 130 |
Женщины | Выздоровела | Нет |
---|---|---|
Принимала | 150 | 70 |
Нет | 400 | 280 |
М+Ж | Выздоровел(а) | Нет |
---|---|---|
Принимал(а) | 850 | 870 |
Нет | 480 | 410 |
Решение задачи
Используя критерий хи-квадрат для анализа таблиц сопряженности получим следующие статистики:
- X2=5,456 для мужчин
- X2=6,125 для женщин
Согласно таблице распределения хи-квадрат с одной степенью свободы находим, что фактические уровни значимости равны 0,02 и 0,01. Это свидетельствует о существенности различия вероятностей выздоровления между теми, кто использовал данный метод лечения и теми, кто его не использовал, т.е. лекарство влияет на выздоровление.
С другой стороны, статистика хи-квадрат для таблицы с объединенными результатами X2=4,782, что значимо велико на уровне 0,03, т.е. лекарство не влияет на выздоровление!
Г. Секей пишет: "Аналогично, новое лекарство может оказаться эффективным в каждом из десяти различных госпиталей, но объединение результатов укажет на то, что это лекарство либо бесполезно, либо вредно".
Причина парадокса
Нехватка данных.
Необходимо, чтобы Мп=Мн=Жп=Жн
Смотри также
Литература
- Г. Секей "Парадоксы в теории вероятностей и математической статистике"