Парадокс хи-квадрат
Материал из MachineLearning.
Содержание |
Описание задачи
Рассматривается следующий любопытный пример из области проверки однородности с помощью критерия хи-квадрат. В таблицах, приведённых ниже, содержится информация о действии некоторого метода лечения (заключается в приеме определенного лекарства) смертельно опасной болезни
- отдельно на мужчин
- отдельно на женщин
- на больных обоего пола (объединённые результаты)
Мужчины | Выздоровил | Нет | |
---|---|---|---|
Принимал | 700 | 800 | |
Нет | 80 | 130 |
Женщины | Выздоровила | Нет | |
---|---|---|---|
Принимала | 150 | 70 | |
Нет | 400 | 280 |
М+Ж | Выздоровил(а) | Нет | |
---|---|---|---|
Принимал(а) | 850 | 870 | |
Нет | 480 | 410 |
Решение задачи
Используя критерий хи-квадрат для анализа таблиц сопряженности получим следующие статистики:
- X2=5,456 для мужчин
- X2=6,125 для женщин
Согласно таблице распределения хи-квадрат с одной степенью свободы находим, что фактические уровни значимости равны 0,02 и 0,01. Это свидетельствует о существенности различия вероятностей выздоровления между теми, кто использовал данный метод лечения и теми, кто его не использовал, т.е. лекарство влияет на выздоровление.
С другой стороны, статистика хи-квадрат для таблицы с объединенными результатами X2=4,782, что значимо велико на уровне 0,03, т.е. лекарство не влияет на выздоровление!
Г. Секей пишет: "Аналогично, новое лекарство может оказаться эффективным в каждом из десяти различных госпиталей, но объединение результатов укажет на то, что это лекарство либо бесполезно, либо вредно".
Причина парадокса
Нехватка данных.
Необходимо, чтобы Мп=Мн=Жп=Жн
Литература
- Г. Секей "Парадоксы в теории вероятностей и математической статистике"
- Статистический анализ данных (курс лекций, К.В.Воронцов)/2008