Критерий Стьюдента
Материал из MachineLearning.
(ссылки) |
(добавлены примеры) |
||
Строка 3: | Строка 3: | ||
'''t-критерий Стьюдента''' — общее название для [[статистический тест|статистических тестов]], в которых статистика критерия имеет [[распределение Стьюдента]]. Наиболее часто t-критерии применяются для проверки равенства средних значений в двух [[выборка]]х. | '''t-критерий Стьюдента''' — общее название для [[статистический тест|статистических тестов]], в которых статистика критерия имеет [[распределение Стьюдента]]. Наиболее часто t-критерии применяются для проверки равенства средних значений в двух [[выборка]]х. | ||
- | Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить [[Критерии нормальности|проверку нормальности]]. Если гипотеза нормальности отвергается, можно проверить другие распределения, | + | Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить [[Критерии нормальности|проверку нормальности]]. Если гипотеза нормальности отвергается, можно проверить другие распределения, если и они не подходят, то следует воспользоваться [[:Категория:Непараметрические статистические тесты|непараметрические статистические тесты]]. |
+ | |||
+ | == Примеры применения == | ||
+ | |||
+ | Чаще всего критерий Стьюдента применяется для проверки равенства средних значений в двух выборках. | ||
+ | |||
+ | '''Пример 1.''' | ||
+ | Первая выборка — это пациенты, которых лечили препаратом А. | ||
+ | Вторая выборка — пациенты, которых лечили препаратом Б. | ||
+ | Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.) | ||
+ | Требуется выяснить, имеется ли значимое различие эффективности препаратов А и Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики. | ||
+ | |||
+ | '''Пример 2.''' | ||
+ | Первая выборка — это значения некоторой характеристики состояния пациентов, записанные ''до'' лечения. | ||
+ | Вторая выборка — это значения ''той же'' характеристики состояния ''тех же'' пациентов, записанные ''после'' лечения. | ||
+ | Объёмы обеих выборок обязаны совпадать; более того, порядок элементов (в данном случае пациентов) в выборках также обязан совпадать. | ||
+ | Такие выборки называются ''связными''. | ||
+ | Требуется выяснить, имеется ли значимое отличие в состоянии пациентов до и после лечения, или различия чисто случайны. | ||
+ | |||
+ | '''Пример 3.''' | ||
+ | Первая выборка — это поля, обработанные агротехническим методом А. | ||
+ | Вторая выборка — поля, обработанные агротехническим методом Б. | ||
+ | Значения в выборках — это урожайность. | ||
+ | Требуется выяснить, является ли один из методов эффективнее другого, или различия урожайности обусловлены случайными факторами. | ||
+ | |||
+ | '''Пример 4.''' | ||
+ | Первая выборка — это дни, когда в супермаркете проходила промо-акция типа А (красные ценники со скидкой). | ||
+ | Вторая выборка — дни промо-акции типа Б (каждая пятая пачка бесплатно). | ||
+ | Значения в выборках — это показатель эффективности промо-акции (объём продаж, либо выручка в рублях). | ||
+ | Требуется выяснить, какой из типов промо-акции более эффективен. | ||
== Сравнение выборочного среднего с заданным значением == | == Сравнение выборочного среднего с заданным значением == |
Версия 12:10, 14 августа 2008
t-критерий Стьюдента — общее название для статистических тестов, в которых статистика критерия имеет распределение Стьюдента. Наиболее часто t-критерии применяются для проверки равенства средних значений в двух выборках.
Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить проверку нормальности. Если гипотеза нормальности отвергается, можно проверить другие распределения, если и они не подходят, то следует воспользоваться непараметрические статистические тесты.
Примеры применения
Чаще всего критерий Стьюдента применяется для проверки равенства средних значений в двух выборках.
Пример 1. Первая выборка — это пациенты, которых лечили препаратом А. Вторая выборка — пациенты, которых лечили препаратом Б. Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.) Требуется выяснить, имеется ли значимое различие эффективности препаратов А и Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики.
Пример 2. Первая выборка — это значения некоторой характеристики состояния пациентов, записанные до лечения. Вторая выборка — это значения той же характеристики состояния тех же пациентов, записанные после лечения. Объёмы обеих выборок обязаны совпадать; более того, порядок элементов (в данном случае пациентов) в выборках также обязан совпадать. Такие выборки называются связными. Требуется выяснить, имеется ли значимое отличие в состоянии пациентов до и после лечения, или различия чисто случайны.
Пример 3. Первая выборка — это поля, обработанные агротехническим методом А. Вторая выборка — поля, обработанные агротехническим методом Б. Значения в выборках — это урожайность. Требуется выяснить, является ли один из методов эффективнее другого, или различия урожайности обусловлены случайными факторами.
Пример 4. Первая выборка — это дни, когда в супермаркете проходила промо-акция типа А (красные ценники со скидкой). Вторая выборка — дни промо-акции типа Б (каждая пятая пачка бесплатно). Значения в выборках — это показатель эффективности промо-акции (объём продаж, либо выручка в рублях). Требуется выяснить, какой из типов промо-акции более эффективен.
Сравнение выборочного среднего с заданным значением
Задана выборка .
Дополнительное предположение: выборка нормальна.
Нулевая гипотеза (выборочное среднее равно заданному числу ).
Статистика критерия:
имеет распределение Стьюдента с степенями свободы, где
- — выборочное среднее,
- — выборочная дисперсия.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где есть -квантиль распределения Стьюдента с степенями свободы.
Сравнение двух выборочных средних при известных дисперсиях
Заданы две выборки .
Дополнительные предположения:
- обе выборки нормальны;
- значения дисперсий известны априори; это означает, что дисперсии были оценены заранее не по этим выборкам, а исходя из какой-то другой информации; случай «неизвестных дисперсий», когда такого источника информации нет и дисперсии приходится оценивать по самим выборкам, описан ниже.
Нулевая гипотеза (средние в двух выборках равны).
Статистика критерия:
имеет стандартное нормальное распределение , где
- — выборочные средние.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где есть -квантиль стандартного нормального распределения.
Сравнение двух выборочных средних при неизвестных равных дисперсиях
Заданы две выборки .
Дополнительные предположения:
- обе выборки нормальны;
- значения дисперсий равны: , но априори не известны.
Нулевая гипотеза (средние в двух выборках равны).
Статистика критерия:
имеет распределение Стьюдента с степенями свободы, где
- — выборочные дисперсии;
- — выборочные средние.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где есть -квантиль распределения Стьюдента с степенями свободы.
Сравнение двух выборочных средних при неизвестных неравных дисперсиях
Задача сравнения средних двух нормально распределённых выборок при неизвестных и неравных дисперсиях известна как проблема Беренса-Фишера. Точного решения этой задачи до настоящего времени нет. На практике используются различные приближения.
Заданы две выборки .
Дополнительное предположение: обе выборки нормальны.
Нулевая гипотеза (средние в двух выборках равны).
Статистика критерия:
где
- — выборочные дисперсии;
- — выборочные средние.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где квантили определяются по-разному в различных приближениях:
- Критерий Кохрена-Кокса:
- , где есть -квантиль распределения Стьюдента с степенями свободы;
- Критерий Сатервайта:
- есть -квантиль распределения Стьюдента с числом степеней свободы
- Критерий Крамера-Уэлча:
- есть -квантиль распределения Стьюдента с числом степеней свободы
Сравнение двух выборочных средних в связанных выборках
Заданы две выборки одинаковой длины .
Дополнительные предположения:
- обе выборки нормальны;
- выборки связны, то есть элементы соответствуют одному и тому же объекту, но измерения сделаны в разные моменты (например, до и после обработки).
Сравнение выборочных средних в связанных выборках ничем не отличается от сравнения среднего разности с нулём.
История
Критерий был разработан Уильямом Госсеттом для оценки качества пива на пивоваренных заводах Гиннесса в Дублине (Ирландия). В связи с обязательствами перед компанией по неразглашению коммерческой тайны (руководство Гиннесса считало таковой использование статистического аппарата в своей работе), статья Госсетта вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
Ссылки
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
- Статистика (функция выборки)
- Student's t-test — статья в англоязычной Википедии.
- t-критерий Стьюдента — из русской Википедии.
- Распределение Стьюдента — из русской Википедии.
- Квантили распределения Стьюдента — из русской Википедии.