Точный тест Фишера

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(категория)
 
(6 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
Точный тест Фишера – это тест статистической значимости, используемый в анализе категориальных данных, когда размеры выборки малы (являются маленькими). Назван в честь его изобретателя, Р. A. Фишера, и является одним из класса точных тестов. Фишер разрабатывал тест после комментария от Muriel Bristol, которая утверждала, будто была в состоянии обнаружить, были ли чай или молоко добавлены сначала в ее чашку.
+
'''Точный тест Фишера''' – это тест статистической значимости, используемый в анализе категориальных данных, когда размеры [[выборка|выборки]] малы (являются маленькими). Назван в честь его изобретателя, Р. A. Фишера, и является одним из класса точных тестов. Фишер разрабатывал тест после комментария от Muriel Bristol, которая утверждала, будто была в состоянии обнаружить, были ли чай или молоко добавлены сначала в ее чашку.
Тест обычно используется, чтобы исследовать значимость взаимосвязи между двумя переменными в факторной таблице размерности 2 x 2 (таблице сопряженности признаков). Величина вероятности P теста вычисляется, как если бы значения на границах таблицы известны. Например, в случае с дегустацией чая, госпожа Bristol знает число чашек с каждым способом приготовления (молоко или чай сначала), поэтому якобы предоставляет правильное число угадываний в каждой категории. Как было указано Фишером, в предположении нуль-гипотезы о независимости испытаний это ведет к использованию гипергеометрического распределения для данного счета в таблице.
Тест обычно используется, чтобы исследовать значимость взаимосвязи между двумя переменными в факторной таблице размерности 2 x 2 (таблице сопряженности признаков). Величина вероятности P теста вычисляется, как если бы значения на границах таблицы известны. Например, в случае с дегустацией чая, госпожа Bristol знает число чашек с каждым способом приготовления (молоко или чай сначала), поэтому якобы предоставляет правильное число угадываний в каждой категории. Как было указано Фишером, в предположении нуль-гипотезы о независимости испытаний это ведет к использованию гипергеометрического распределения для данного счета в таблице.
-
С большими выборками в этой ситуации может использоваться тест хи-квадрат. Однако, этот тест не является подходящим, когда математические ожидания значений в любой из ячеек таблицы с заданными границами оказывается ниже 10: вычисленное выборочное распределение испытуемой статистической величины только приблизительно равно теоретическому распределению хи-квадрат, и приближение неадекватно в этих условиях (которые возникают, когда размеры выборки малы, или данные очень неравноценно распределены среди ячеек таблицы). Тест Фишера, как следует из его названия, является точным, и может поэтому использоваться независимо от особенностей выборки. Тест становится трудно вычислимым для больших выборок или хорошо уравновешенных таблиц, но к счастью именно для этих условий хорошо применим тест хи-квадрат.
+
С большими выборками в этой ситуации может использоваться тест хи-квадрат. Однако, этот тест не является подходящим, когда математические ожидания значений в любой из ячеек таблицы с заданными границами оказывается ниже 10: вычисленное выборочное распределение испытуемой статистической величины только приблизительно равно теоретическому распределению хи-квадрат, и приближение неадекватно в этих условиях (которые возникают, когда размеры выборки малы, или данные очень неравноценно распределены среди ячеек таблицы). Тест Фишера, как следует из его названия, является точным, и может поэтому использоваться независимо от особенностей выборки. Тест становится трудно вычислимым для больших выборок или хорошо уравновешенных таблиц, но к счастью именно для этих условий хорошо применим [[Критерий хи-квадрат|критерий хи-квадрат]].
-
Для ручных вычислений тест выполним в только случае размерности факторных таблиц 2 x 2. Однако принцип теста может быть расширен на общий случай таблиц m x n, и некоторые статистические пакеты обеспечивают такие вычисления (иногда используя метод Монте-Карло, чтобы получить приближение).
+
Для ручных вычислений тест выполним в только случае размерности факторных таблиц 2 x 2. Однако принцип теста может быть расширен на общий случай таблиц m x n, и некоторые статистические пакеты обеспечивают такие вычисления (иногда используя [[метод Монте-Карло]], чтобы получить приближение).
-
Пример. Точные Тесты позволяют получать более аккуратный анализ для маленьких выборок или данных, которые редки. Точные Тесты непараметрических исследований – подходящий статистический инструмент для работы с неуравновешенными данными. Неуравновешенные данные, проанализированные асимптотическими методами, имеют тенденцию приводить к ненадежным результатам. Для больших и хорошо уравновешенных наборов данных точные и асимптотические оценки вероятностей p очень похожи. Но для маленьких, редких, или выведенных из равновесия данных, точные и асимптотические оценки могут быть весьма различными и дажепривести к противоположным заключениям относительно разрабатываемой гипотезы (Mehta, Patel, & Tsiatis, 1984; Mehta, 1995; Mehta & Patel, 1997).
+
==Пример==
 +
 
 +
Точные Тесты позволяют получать более аккуратный анализ для маленьких выборок или данных, которые редки. Точные Тесты непараметрических исследований – подходящий статистический инструмент для работы с неуравновешенными данными. Неуравновешенные данные, проанализированные асимптотическими методами, имеют тенденцию приводить к ненадежным результатам. Для больших и хорошо уравновешенных наборов данных точные и асимптотические оценки вероятностей p очень похожи. Но для маленьких, редких, или выведенных из равновесия данных, точные и асимптотические оценки могут быть весьма различными и дажепривести к противоположным заключениям относительно разрабатываемой гипотезы (Mehta, Patel, & Tsiatis, 1984; Mehta, 1995; Mehta & Patel, 1997).
Потребность в тесте Фишера возникает, когда у нас есть данные, разделенные на две категории двумя отдельными способами. Например, выборка подростков может быть разделена на категории с одной стороны по признаку пола (юноши и девушки), а с другой стороны – по признаку нахождения на диете или нет. Можно выдвинуть гипотезу, о том, что доля находящихся на диете людей выше среди девушек, чем среди юношей, и мы хотим удостовериться, является ли какое-нибудь наблюдаемое различие пропорций статистически значимым.
Потребность в тесте Фишера возникает, когда у нас есть данные, разделенные на две категории двумя отдельными способами. Например, выборка подростков может быть разделена на категории с одной стороны по признаку пола (юноши и девушки), а с другой стороны – по признаку нахождения на диете или нет. Можно выдвинуть гипотезу, о том, что доля находящихся на диете людей выше среди девушек, чем среди юношей, и мы хотим удостовериться, является ли какое-нибудь наблюдаемое различие пропорций статистически значимым.
Данные могли бы быть похожими на следующие:
Данные могли бы быть похожими на следующие:
-
Юноши Девушки Всего
+
 
-
На диете 1 9 10
+
<center>
-
Не на диете 11 3 14
+
<table>
-
Всего 12 12 24
+
<tr><td></td><td>юноши</td><td>девушки</td><td>всего</td></tr>
 +
<tr><td>на диете</td><td>1</td><td>9</td><td>10</td></tr>
 +
<tr><td>не на диете</td><td>11</td><td>3</td><td>14</td></tr>
 +
<tr><td>всего</td><td>12</td><td>12</td><td>24</td></tr>
 +
</table>
 +
</center>
Такие данные не подходят для анализа методом хи-квадрат, потому что математические ожидания в таблице - все ниже 10, а в 2 × 2 факторной таблице число степеней свободы всегда 1.
Такие данные не подходят для анализа методом хи-квадрат, потому что математические ожидания в таблице - все ниже 10, а в 2 × 2 факторной таблице число степеней свободы всегда 1.
Строка 24: Строка 31:
Теперь таблица выглядит следующим образом:
Теперь таблица выглядит следующим образом:
-
Юноши Девушки Всего
 
-
На диете a b a+b
 
-
Не на диете c d c+d
 
-
Всего a+c b+d n
 
-
Фишер показал, что вероятность получения любого такого набора величин дается гипергеометрическим распределением:
+
<center>
 +
<table>
 +
<tr><td></td><td>Юноши</td><td>Девушки</td><td>Всего</td></tr>
 +
<tr><td>На диете</td><td>''a''</td><td>''b''</td><td>''a'' + ''b''</td></tr>
 +
<tr><td>Не на диете</td><td>''c''</td><td>''d''</td><td>''c'' + ''d''</td></tr>
 +
<tr><td>Всего</td><td>''a'' + ''c''</td><td>''b'' + ''d''</td><td>''n''</td></tr>
 +
</table>
 +
</center>
 +
 
 +
 
 +
Фишер показал, что [[вероятность]] получения любого такого набора величин дается гипергеометрическим распределением:
 +
 
 +
 
 +
<center>
 +
<tex>p = {{{a+b}\choose{a}}{{c+d}\choose{c}}}\left/{{{n}\choose{a+c}}}\right.</tex><tex> =\frac{(a+b)!(c+d)!(a+c)!(b+d)!}{n!a!b!c!d!}</tex>
 +
</center>
-
где столбцы в скобках – биномиальные коэффициенты, а символ! указывает оператор факториала. Эта формула дает точную вероятность наблюдения любого специфического набора данных, при условии заданных маргинальных итогов, общего итога и нулевой гипотезе об одинаковой предрасположенности к диете независимо от пола (соотношение между диетиками и людьми не находящимися на диете для юношей такое же, как для девушек).
+
где столбцы в скобках – [[биномиальные коэффициенты]], а символ! указывает оператор факториала.
 +
 
 +
Эта формула дает точную вероятность наблюдения любого специфического набора данных, при условии заданных маргинальных итогов, общего итога и [[нулевая гипотеза|нулевой гипотезе]] об одинаковой предрасположенности к диете независимо от пола (соотношение между диетиками и людьми не находящимися на диете для юношей такое же, как для девушек).
Фишер показал, что мы можем иметь дело только со случаями, где маргинальные итоги (marginal totals)- те же самые, что и в приведенной таблице. В приведенном примере таких случаев 11. Из них только один столь же «перекошен» (в сторону женской склонности к диете) как и демонстрационный пример:
Фишер показал, что мы можем иметь дело только со случаями, где маргинальные итоги (marginal totals)- те же самые, что и в приведенной таблице. В приведенном примере таких случаев 11. Из них только один столь же «перекошен» (в сторону женской склонности к диете) как и демонстрационный пример:
-
Юноши Девушки Всего
+
<center>
-
На диете 0 10 10
+
<table>
-
Не на диете 12 2 14
+
<tr><td></td><td>Юноши </td><td>Девушки </td><td>Всего </td></tr>
-
Всего 12 12 24
+
<tr><td>На диете </td><td>0</td><td>10</td><td>10</td></tr>
 +
<tr><td>Не на диете </td><td>12</td><td>2</td><td>14</td></tr>
 +
<tr><td>Всего </td><td>12</td><td>12</td><td>24</td></tr>
 +
</table>
 +
</center>
-
Чтобы оценить статистическую значимость наблюдаемых данных, то есть полную вероятность такого же или более выраженного «перекоса» в сторону нахождения девушек на диете, в предположении нулевой гипотезы мы должны вычислить вероятности ценности p для обеих этих таблиц и сложить их. Это дает, т.н. односторонний тест; для двустороннего теста мы должны также рассмотреть таблицы, которые так же перекошены, но в противоположном направлении (т.е. рассмотреть случай преимущественного нахождения на диете юношей).
+
Чтобы оценить статистическую значимость наблюдаемых данных, то есть полную вероятность такого же или более выраженного «перекоса» в сторону нахождения девушек на диете, в предположении [[нулевая гипотеза|нулевой гипотезы]] мы должны вычислить вероятности ценности p для обеих этих таблиц и сложить их. Это дает, т.н. односторонний тест; для двустороннего теста мы должны также рассмотреть таблицы, которые так же перекошены, но в противоположном направлении (т.е. рассмотреть случай преимущественного нахождения на диете юношей).
К сожалению, классификация таблиц согласно тому, являются ли они 'чрезвычайно перекошенными', проблематична. Подход, используемый языком программирования R, предлагает вычислить величину критерия p, суммируя вероятности для всех таблиц с вероятностями, меньше чем или равными вероятности наблюдаемой таблицы. Для таблиц с малыми числами в ячейках двусторонняя оценка критерия может существенно отличаться от удвоенной величины односторонней оценки, в отличие от случая со статистическими данными, у которых есть симметрическое распределение выборки.
К сожалению, классификация таблиц согласно тому, являются ли они 'чрезвычайно перекошенными', проблематична. Подход, используемый языком программирования R, предлагает вычислить величину критерия p, суммируя вероятности для всех таблиц с вероятностями, меньше чем или равными вероятности наблюдаемой таблицы. Для таблиц с малыми числами в ячейках двусторонняя оценка критерия может существенно отличаться от удвоенной величины односторонней оценки, в отличие от случая со статистическими данными, у которых есть симметрическое распределение выборки.
-
Большинство современных статистических пакетов вычисляет значение тестов Фишера, в некоторых случаях даже там, где приближение хи-квадрат также было бы приемлемым. Фактические вычисления, выполненные статистическими пакетами программ, будут как правило отличаться от описанных. В частности числовые трудности могут следовать из больших величин факториалов. Простые, но даже более эффективные вычислительные подходы основаны на использовании гамма-функции или логарифмической гамма-функции, однако точное вычисление гипергеометрических и биномиальных вероятностей - область современных исследований.
+
Большинство современных статистических пакетов вычисляет значение тестов Фишера, в некоторых случаях даже там, где приближение хи-квадрат также было бы приемлемым. Фактические вычисления, выполненные статистическими пакетами программ, будут как правило отличаться от описанных. В частности числовые трудности могут следовать из больших величин факториалов. Простые, но даже более эффективные вычислительные подходы основаны на использовании [[гамма-функция|гамма-функции]] или логарифмической гамма-функции, однако точное вычисление гипергеометрических и биномиальных вероятностей - область современных исследований.
==Литература==
==Литература==
-
Fisher, R. A. 1922. "On the interpretation of χ2 from contingency tables, and the calculation of P". Journal of the Royal Statistical Society 85(1):87-94.
+
* Fisher, R. A. 1922. "On the interpretation of χ2 from contingency tables, and the calculation of P". Journal of the Royal Statistical Society 85(1):87-94.
-
Fisher, R. A. 1954 Statistical Methods for research workers. Oliver and Boyd.
+
* Fisher, R. A. 1954 Statistical Methods for research workers. Oliver and Boyd.
-
Mehta, C. R. 1995. SPSS 6.1 Exact test for Windows. Englewood Cliffs, NJ: Prentice Hall.
+
* Mehta, C. R. 1995. SPSS 6.1 Exact test for Windows. Englewood Cliffs, NJ: Prentice Hall.
-
Mehta, C. R., Patel, N. R., & Tsiatis, A. A. 1984. Exact significance testing to establish treatment equivalence with ordered categorical data. Biometrics, 40(3), 819-825.
+
* Mehta, C. R., Patel, N. R., & Tsiatis, A. A. 1984. Exact significance testing to establish treatment equivalence with ordered categorical data. Biometrics, 40(3), 819-825.
-
Mehta, C. R.& Patel, N. R. 1997. Exact inference in categorical data. Biometrics, 53(1), 112-117.
+
* Mehta, C. R.& Patel, N. R. 1997. Exact inference in categorical data. Biometrics, 53(1), 112-117.
 +
 
 +
==См. также==
 +
[[Гипергеометрическое распределение]]
 +
 
 +
==Ссылки==
 +
* [http://www.socr.ucla.edu/htmls/ana/FishersExactTest_Analysis.html] Точный тест Фишера, калькулятор
 +
* [http://www.physics.csbsju.edu/stats/exact2.html] On-line точный тест Фишера, с примерами
 +
* [http://www.matforsk.no/ola/fisher.htm] On-line точный тест Фишера, работающий с большими значениями клеток
 +
* [http://mathworld.wolfram.com/FishersExactTest.html] mathworld.wolfram.com Рассмотрение m x n расширения точного теста Фишера
 +
 
 +
[[Категория:Статистические тесты]]

Текущая версия

Точный тест Фишера – это тест статистической значимости, используемый в анализе категориальных данных, когда размеры выборки малы (являются маленькими). Назван в честь его изобретателя, Р. A. Фишера, и является одним из класса точных тестов. Фишер разрабатывал тест после комментария от Muriel Bristol, которая утверждала, будто была в состоянии обнаружить, были ли чай или молоко добавлены сначала в ее чашку.

Тест обычно используется, чтобы исследовать значимость взаимосвязи между двумя переменными в факторной таблице размерности 2 x 2 (таблице сопряженности признаков). Величина вероятности P теста вычисляется, как если бы значения на границах таблицы известны. Например, в случае с дегустацией чая, госпожа Bristol знает число чашек с каждым способом приготовления (молоко или чай сначала), поэтому якобы предоставляет правильное число угадываний в каждой категории. Как было указано Фишером, в предположении нуль-гипотезы о независимости испытаний это ведет к использованию гипергеометрического распределения для данного счета в таблице.

С большими выборками в этой ситуации может использоваться тест хи-квадрат. Однако, этот тест не является подходящим, когда математические ожидания значений в любой из ячеек таблицы с заданными границами оказывается ниже 10: вычисленное выборочное распределение испытуемой статистической величины только приблизительно равно теоретическому распределению хи-квадрат, и приближение неадекватно в этих условиях (которые возникают, когда размеры выборки малы, или данные очень неравноценно распределены среди ячеек таблицы). Тест Фишера, как следует из его названия, является точным, и может поэтому использоваться независимо от особенностей выборки. Тест становится трудно вычислимым для больших выборок или хорошо уравновешенных таблиц, но к счастью именно для этих условий хорошо применим критерий хи-квадрат.

Для ручных вычислений тест выполним в только случае размерности факторных таблиц 2 x 2. Однако принцип теста может быть расширен на общий случай таблиц m x n, и некоторые статистические пакеты обеспечивают такие вычисления (иногда используя метод Монте-Карло, чтобы получить приближение).

Содержание

Пример

Точные Тесты позволяют получать более аккуратный анализ для маленьких выборок или данных, которые редки. Точные Тесты непараметрических исследований – подходящий статистический инструмент для работы с неуравновешенными данными. Неуравновешенные данные, проанализированные асимптотическими методами, имеют тенденцию приводить к ненадежным результатам. Для больших и хорошо уравновешенных наборов данных точные и асимптотические оценки вероятностей p очень похожи. Но для маленьких, редких, или выведенных из равновесия данных, точные и асимптотические оценки могут быть весьма различными и дажепривести к противоположным заключениям относительно разрабатываемой гипотезы (Mehta, Patel, & Tsiatis, 1984; Mehta, 1995; Mehta & Patel, 1997).

Потребность в тесте Фишера возникает, когда у нас есть данные, разделенные на две категории двумя отдельными способами. Например, выборка подростков может быть разделена на категории с одной стороны по признаку пола (юноши и девушки), а с другой стороны – по признаку нахождения на диете или нет. Можно выдвинуть гипотезу, о том, что доля находящихся на диете людей выше среди девушек, чем среди юношей, и мы хотим удостовериться, является ли какое-нибудь наблюдаемое различие пропорций статистически значимым.

Данные могли бы быть похожими на следующие:

юношидевушкивсего
на диете1910
не на диете11314
всего121224

Такие данные не подходят для анализа методом хи-квадрат, потому что математические ожидания в таблице - все ниже 10, а в 2 × 2 факторной таблице число степеней свободы всегда 1.

Вопрос, который мы задаем об этих данных: зная, что 10 из 24 подростков - люди, сидящие на диете, и что 12 из этих 24 - девушки, какова вероятность, что 10 диетиков так неравноценно распределены между полами? Если бы мы выбрали 10 подростков наугад, какова вероятность, что 9 из них оказались взяты из набора 12 лиц женского пола, и только 1 из числа 12 юношей?

Прежде, чем продолжить исследование теста Фишера, введем необходимую нотацию. Обозначим числа в ячейках буквами a, b, c и d, соответственно, назовем итоги суммирования по строкам и столбцам маргинальными (граничными) итогами, и представим общий итог буквой n.

Теперь таблица выглядит следующим образом:

ЮношиДевушкиВсего
На диетеaba + b
Не на диетеcdc + d
Всегоa + cb + dn


Фишер показал, что вероятность получения любого такого набора величин дается гипергеометрическим распределением:


p = {{{a+b}\choose{a}}{{c+d}\choose{c}}}\left/{{{n}\choose{a+c}}}\right. =\frac{(a+b)!(c+d)!(a+c)!(b+d)!}{n!a!b!c!d!}

где столбцы в скобках – биномиальные коэффициенты, а символ! указывает оператор факториала.

Эта формула дает точную вероятность наблюдения любого специфического набора данных, при условии заданных маргинальных итогов, общего итога и нулевой гипотезе об одинаковой предрасположенности к диете независимо от пола (соотношение между диетиками и людьми не находящимися на диете для юношей такое же, как для девушек).

Фишер показал, что мы можем иметь дело только со случаями, где маргинальные итоги (marginal totals)- те же самые, что и в приведенной таблице. В приведенном примере таких случаев 11. Из них только один столь же «перекошен» (в сторону женской склонности к диете) как и демонстрационный пример:

Юноши Девушки Всего
На диете 01010
Не на диете 12214
Всего 121224

Чтобы оценить статистическую значимость наблюдаемых данных, то есть полную вероятность такого же или более выраженного «перекоса» в сторону нахождения девушек на диете, в предположении нулевой гипотезы мы должны вычислить вероятности ценности p для обеих этих таблиц и сложить их. Это дает, т.н. односторонний тест; для двустороннего теста мы должны также рассмотреть таблицы, которые так же перекошены, но в противоположном направлении (т.е. рассмотреть случай преимущественного нахождения на диете юношей).

К сожалению, классификация таблиц согласно тому, являются ли они 'чрезвычайно перекошенными', проблематична. Подход, используемый языком программирования R, предлагает вычислить величину критерия p, суммируя вероятности для всех таблиц с вероятностями, меньше чем или равными вероятности наблюдаемой таблицы. Для таблиц с малыми числами в ячейках двусторонняя оценка критерия может существенно отличаться от удвоенной величины односторонней оценки, в отличие от случая со статистическими данными, у которых есть симметрическое распределение выборки.

Большинство современных статистических пакетов вычисляет значение тестов Фишера, в некоторых случаях даже там, где приближение хи-квадрат также было бы приемлемым. Фактические вычисления, выполненные статистическими пакетами программ, будут как правило отличаться от описанных. В частности числовые трудности могут следовать из больших величин факториалов. Простые, но даже более эффективные вычислительные подходы основаны на использовании гамма-функции или логарифмической гамма-функции, однако точное вычисление гипергеометрических и биномиальных вероятностей - область современных исследований.

Литература

  • Fisher, R. A. 1922. "On the interpretation of χ2 from contingency tables, and the calculation of P". Journal of the Royal Statistical Society 85(1):87-94.
  • Fisher, R. A. 1954 Statistical Methods for research workers. Oliver and Boyd.
  • Mehta, C. R. 1995. SPSS 6.1 Exact test for Windows. Englewood Cliffs, NJ: Prentice Hall.
  • Mehta, C. R., Patel, N. R., & Tsiatis, A. A. 1984. Exact significance testing to establish treatment equivalence with ordered categorical data. Biometrics, 40(3), 819-825.
  • Mehta, C. R.& Patel, N. R. 1997. Exact inference in categorical data. Biometrics, 53(1), 112-117.

См. также

Гипергеометрическое распределение

Ссылки

  • [1] Точный тест Фишера, калькулятор
  • [2] On-line точный тест Фишера, с примерами
  • [3] On-line точный тест Фишера, работающий с большими значениями клеток
  • [4] mathworld.wolfram.com Рассмотрение m x n расширения точного теста Фишера
Личные инструменты