Критерий Стьюдента
Материал из MachineLearning.
м (литература) |
(дополнение "2.6 Сравнение разности средних с заданным значением") |
||
Строка 1: | Строка 1: | ||
{{TOCright}} | {{TOCright}} | ||
- | '''t-критерий Стьюдента''' — общее название для [[статистический тест|статистических тестов]], в которых статистика критерия имеет [[распределение Стьюдента]]. Наиболее часто t-критерии применяются для проверки равенства средних значений в двух [[выборка]]х. | + | '''t-критерий Стьюдента''' — общее название для [[статистический тест|статистических тестов]], в которых статистика критерия имеет [[распределение Стьюдента]]. |
+ | Наиболее часто t-критерии применяются для проверки равенства средних значений в двух [[выборка]]х. | ||
+ | [[Нулевая гипотеза]] предполагает, что средние равны (отрицание этого предположения называют [[гипотеза сдвига|гипотезой сдвига]]). | ||
- | Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить [[Критерии нормальности|проверку нормальности]]. Если гипотеза нормальности отвергается, можно проверить другие распределения, если и они не подходят, то следует воспользоваться [[:Категория:Непараметрические статистические тесты|непараметрические статистические тесты]]. | + | Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. |
+ | Поэтому перед применением критерия Стьюдента рекомендуется выполнить [[Критерии нормальности|проверку нормальности]]. | ||
+ | Если гипотеза нормальности отвергается, можно проверить другие распределения, если и они не подходят, то следует воспользоваться [[:Категория:Непараметрические статистические тесты|непараметрические статистические тесты]]. | ||
- | == Примеры | + | == Примеры задач == |
Чаще всего критерий Стьюдента применяется для проверки равенства средних значений в двух выборках. | Чаще всего критерий Стьюдента применяется для проверки равенства средних значений в двух выборках. | ||
Строка 34: | Строка 38: | ||
Требуется выяснить, какой из типов промо-акции более эффективен. | Требуется выяснить, какой из типов промо-акции более эффективен. | ||
- | == Сравнение выборочного среднего с заданным значением == | + | == Варианты применения == |
+ | |||
+ | === Сравнение выборочного среднего с заданным значением === | ||
Задана выборка <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R}</tex>. | Задана выборка <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R}</tex>. | ||
- | '''Дополнительное предположение:''' выборка | + | '''Дополнительное предположение:''' |
+ | выборка [[простая выборка|простая]] и [[нормальная выборка|нормальная]]. | ||
'''Нулевая гипотеза''' <tex>H_0:\; \bar x = \mu</tex> (выборочное среднее равно заданному числу <tex>\mu</tex>). | '''Нулевая гипотеза''' <tex>H_0:\; \bar x = \mu</tex> (выборочное среднее равно заданному числу <tex>\mu</tex>). | ||
Строка 62: | Строка 69: | ||
<tex> t_{\alpha} </tex> есть <tex>\alpha</tex>-[[квантиль]] распределения Стьюдента с <tex>m-1</tex> степенями свободы. | <tex> t_{\alpha} </tex> есть <tex>\alpha</tex>-[[квантиль]] распределения Стьюдента с <tex>m-1</tex> степенями свободы. | ||
- | == Сравнение двух выборочных средних при известных дисперсиях == | + | === Сравнение двух выборочных средних при известных дисперсиях === |
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>. | Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>. | ||
'''Дополнительные предположения:''' | '''Дополнительные предположения:''' | ||
- | * обе выборки | + | * обе выборки [[простая выборка|простые]] и [[нормальная выборка|нормальные]]; |
* значения дисперсий <tex> \sigma^2_x,\, \sigma^2_y </tex> известны априори; это означает, что дисперсии были оценены заранее не по этим выборкам, а исходя из какой-то другой информации; случай «неизвестных дисперсий», когда такого источника информации нет и дисперсии приходится оценивать по самим выборкам, [[#Сравнение двух выборочных средних при неизвестных неравных дисперсиях|описан ниже]]. | * значения дисперсий <tex> \sigma^2_x,\, \sigma^2_y </tex> известны априори; это означает, что дисперсии были оценены заранее не по этим выборкам, а исходя из какой-то другой информации; случай «неизвестных дисперсий», когда такого источника информации нет и дисперсии приходится оценивать по самим выборкам, [[#Сравнение двух выборочных средних при неизвестных неравных дисперсиях|описан ниже]]. | ||
Строка 91: | Строка 98: | ||
<tex> \Phi_{\alpha} </tex> есть <tex>\alpha</tex>-[[квантиль]] стандартного нормального распределения. | <tex> \Phi_{\alpha} </tex> есть <tex>\alpha</tex>-[[квантиль]] стандартного нормального распределения. | ||
- | == Сравнение двух выборочных средних при неизвестных равных дисперсиях == | + | === Сравнение двух выборочных средних при неизвестных равных дисперсиях === |
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>. | Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>. | ||
'''Дополнительные предположения:''' | '''Дополнительные предположения:''' | ||
- | * обе выборки | + | * обе выборки [[простая выборка|простые]] и [[нормальная выборка|нормальные]]; |
* значения дисперсий равны: <tex> \sigma^2_x = \sigma^2_y </tex>, но априори не известны. | * значения дисперсий равны: <tex> \sigma^2_x = \sigma^2_y </tex>, но априори не известны. | ||
Строка 121: | Строка 128: | ||
<tex> t_{\alpha} </tex> есть <tex>\alpha</tex>-[[квантиль]] распределения Стьюдента с <tex>m+n-2</tex> степенями свободы. | <tex> t_{\alpha} </tex> есть <tex>\alpha</tex>-[[квантиль]] распределения Стьюдента с <tex>m+n-2</tex> степенями свободы. | ||
- | == Сравнение двух выборочных средних при неизвестных неравных дисперсиях == | + | === Сравнение двух выборочных средних при неизвестных неравных дисперсиях === |
Задача сравнения средних двух нормально распределённых выборок при неизвестных и неравных дисперсиях известна как проблема Беренса-Фишера. | Задача сравнения средних двух нормально распределённых выборок при неизвестных и неравных дисперсиях известна как проблема Беренса-Фишера. | ||
Точного решения этой задачи до настоящего времени нет. | Точного решения этой задачи до настоящего времени нет. | ||
Строка 128: | Строка 135: | ||
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>. | Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>. | ||
- | '''Дополнительное предположение:''' обе выборки | + | '''Дополнительное предположение:''' |
+ | обе выборки [[простая выборка|простые]] и [[нормальная выборка|нормальные]]. | ||
'''Нулевая гипотеза''' <tex>H_0:\; \bar x = \bar y</tex> (средние в двух выборках равны). | '''Нулевая гипотеза''' <tex>H_0:\; \bar x = \bar y</tex> (средние в двух выборках равны). | ||
Строка 156: | Строка 164: | ||
::<tex> t'_{\alpha}</tex> есть <tex>\alpha</tex>-[[квантиль]] распределения Стьюдента с числом степеней свободы <tex>f = s^4\left( \frac1{1-m}\left(\frac{s_x^2}m\right)^2 + \frac1{1-n}\left(\frac{s_y^2}n\right)^2 \right)^{-1} - 2.</tex> | ::<tex> t'_{\alpha}</tex> есть <tex>\alpha</tex>-[[квантиль]] распределения Стьюдента с числом степеней свободы <tex>f = s^4\left( \frac1{1-m}\left(\frac{s_x^2}m\right)^2 + \frac1{1-n}\left(\frac{s_y^2}n\right)^2 \right)^{-1} - 2.</tex> | ||
- | == Сравнение двух выборочных средних в связанных выборках == | + | === Сравнение двух выборочных средних в связанных выборках === |
Заданы две выборки одинаковой длины <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^m = (y_1,\ldots,y_m),\; y_i \in \mathbb{R}</tex>. | Заданы две выборки одинаковой длины <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^m = (y_1,\ldots,y_m),\; y_i \in \mathbb{R}</tex>. | ||
'''Дополнительные предположения:''' | '''Дополнительные предположения:''' | ||
- | * обе выборки | + | * обе выборки [[простая выборка|простые]] и [[нормальная выборка|нормальные]]; |
- | * выборки | + | * выборки связные, то есть элементы <tex>x_i,\: y_i</tex> соответствуют одному и тому же объекту, но измерения сделаны в разные моменты (например, до и после обработки). |
+ | |||
+ | '''Нулевая гипотеза''' <tex>H_0:\; \bar x = \bar y</tex> (средние в двух выборках равны). | ||
Сравнение выборочных средних в связанных выборках ничем не отличается от сравнения среднего разности <tex>d_i = x_i - y_i</tex> с нулём. | Сравнение выборочных средних в связанных выборках ничем не отличается от сравнения среднего разности <tex>d_i = x_i - y_i</tex> с нулём. | ||
+ | === Сравнение разности средних с заданным значением === | ||
+ | Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>. | ||
+ | |||
+ | '''Дополнительное предположение:''' | ||
+ | * обе выборки [[простая выборка|простые]] и [[нормальная выборка|нормальные]]; | ||
+ | * равенство дисперсий может предполагаться либо нет — в зависимости от этого применяется один из критериев, описанных выше. | ||
+ | |||
+ | '''Нулевая гипотеза''' <tex>H_0:\; \bar x + A = \bar y </tex> (средние в двух выборках отличаются на заданную величину). | ||
+ | |||
+ | Модифицированная первая выборка <tex>x'_i = x_i + A</tex> сравнивается с исходной второй выборкой с помощью одного из критериев, описанных выше. | ||
== История == | == История == | ||
Строка 176: | Строка 196: | ||
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез. | * [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез. | ||
* [[Статистика (функция выборки)]] | * [[Статистика (функция выборки)]] | ||
- | * [http://en.wikipedia.org/wiki/Student%27s_t-test Student's t-test] | + | * [http://en.wikipedia.org/wiki/Student%27s_t-test Student's t-test] (Wikipedia). |
- | * [http://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0 t-критерий Стьюдента] | + | * [http://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0 t-критерий Стьюдента] (Википедия). |
- | * [http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0 Распределение Стьюдента] | + | * [http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0 Распределение Стьюдента] (Википедия). |
- | * [http://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0 Квантили распределения Стьюдента] | + | * [http://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0 Квантили распределения Стьюдента] (Википедия). |
[[Категория:Статистические тесты]] | [[Категория:Статистические тесты]] | ||
[[Категория:Параметрические статистические тесты]] | [[Категория:Параметрические статистические тесты]] | ||
[[Категория:Популярные и обзорные статьи]] | [[Категория:Популярные и обзорные статьи]] |
Версия 17:36, 14 августа 2008
t-критерий Стьюдента — общее название для статистических тестов, в которых статистика критерия имеет распределение Стьюдента. Наиболее часто t-критерии применяются для проверки равенства средних значений в двух выборках. Нулевая гипотеза предполагает, что средние равны (отрицание этого предположения называют гипотезой сдвига).
Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить проверку нормальности. Если гипотеза нормальности отвергается, можно проверить другие распределения, если и они не подходят, то следует воспользоваться непараметрические статистические тесты.
Примеры задач
Чаще всего критерий Стьюдента применяется для проверки равенства средних значений в двух выборках.
Пример 1. Первая выборка — это пациенты, которых лечили препаратом А. Вторая выборка — пациенты, которых лечили препаратом Б. Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.) Требуется выяснить, имеется ли значимое различие эффективности препаратов А и Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики.
Пример 2. Первая выборка — это значения некоторой характеристики состояния пациентов, записанные до лечения. Вторая выборка — это значения той же характеристики состояния тех же пациентов, записанные после лечения. Объёмы обеих выборок обязаны совпадать; более того, порядок элементов (в данном случае пациентов) в выборках также обязан совпадать. Такие выборки называются связными. Требуется выяснить, имеется ли значимое отличие в состоянии пациентов до и после лечения, или различия чисто случайны.
Пример 3. Первая выборка — это поля, обработанные агротехническим методом А. Вторая выборка — поля, обработанные агротехническим методом Б. Значения в выборках — это урожайность. Требуется выяснить, является ли один из методов эффективнее другого, или различия урожайности обусловлены случайными факторами.
Пример 4. Первая выборка — это дни, когда в супермаркете проходила промо-акция типа А (красные ценники со скидкой). Вторая выборка — дни промо-акции типа Б (каждая пятая пачка бесплатно). Значения в выборках — это показатель эффективности промо-акции (объём продаж, либо выручка в рублях). Требуется выяснить, какой из типов промо-акции более эффективен.
Варианты применения
Сравнение выборочного среднего с заданным значением
Задана выборка .
Дополнительное предположение: выборка простая и нормальная.
Нулевая гипотеза (выборочное среднее равно заданному числу ).
Статистика критерия:
имеет распределение Стьюдента с степенями свободы, где
- — выборочное среднее,
- — выборочная дисперсия.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где есть -квантиль распределения Стьюдента с степенями свободы.
Сравнение двух выборочных средних при известных дисперсиях
Заданы две выборки .
Дополнительные предположения:
- обе выборки простые и нормальные;
- значения дисперсий известны априори; это означает, что дисперсии были оценены заранее не по этим выборкам, а исходя из какой-то другой информации; случай «неизвестных дисперсий», когда такого источника информации нет и дисперсии приходится оценивать по самим выборкам, описан ниже.
Нулевая гипотеза (средние в двух выборках равны).
Статистика критерия:
имеет стандартное нормальное распределение , где
- — выборочные средние.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где есть -квантиль стандартного нормального распределения.
Сравнение двух выборочных средних при неизвестных равных дисперсиях
Заданы две выборки .
Дополнительные предположения:
- обе выборки простые и нормальные;
- значения дисперсий равны: , но априори не известны.
Нулевая гипотеза (средние в двух выборках равны).
Статистика критерия:
имеет распределение Стьюдента с степенями свободы, где
- — выборочные дисперсии;
- — выборочные средние.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где есть -квантиль распределения Стьюдента с степенями свободы.
Сравнение двух выборочных средних при неизвестных неравных дисперсиях
Задача сравнения средних двух нормально распределённых выборок при неизвестных и неравных дисперсиях известна как проблема Беренса-Фишера. Точного решения этой задачи до настоящего времени нет. На практике используются различные приближения.
Заданы две выборки .
Дополнительное предположение: обе выборки простые и нормальные.
Нулевая гипотеза (средние в двух выборках равны).
Статистика критерия:
где
- — выборочные дисперсии;
- — выборочные средние.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где квантили определяются по-разному в различных приближениях:
- Критерий Кохрена-Кокса:
- , где есть -квантиль распределения Стьюдента с степенями свободы;
- Критерий Сатервайта:
- есть -квантиль распределения Стьюдента с числом степеней свободы
- Критерий Крамера-Уэлча:
- есть -квантиль распределения Стьюдента с числом степеней свободы
Сравнение двух выборочных средних в связанных выборках
Заданы две выборки одинаковой длины .
Дополнительные предположения:
- обе выборки простые и нормальные;
- выборки связные, то есть элементы соответствуют одному и тому же объекту, но измерения сделаны в разные моменты (например, до и после обработки).
Нулевая гипотеза (средние в двух выборках равны).
Сравнение выборочных средних в связанных выборках ничем не отличается от сравнения среднего разности с нулём.
Сравнение разности средних с заданным значением
Заданы две выборки .
Дополнительное предположение:
- обе выборки простые и нормальные;
- равенство дисперсий может предполагаться либо нет — в зависимости от этого применяется один из критериев, описанных выше.
Нулевая гипотеза (средние в двух выборках отличаются на заданную величину).
Модифицированная первая выборка сравнивается с исходной второй выборкой с помощью одного из критериев, описанных выше.
История
Критерий был разработан Уильямом Госсеттом для оценки качества пива на пивоваренных заводах Гиннесса в Дублине (Ирландия). В связи с обязательствами перед компанией по неразглашению коммерческой тайны (руководство Гиннесса считало таковой использование статистического аппарата в своей работе), статья Госсетта вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.
Ссылки
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
- Статистика (функция выборки)
- Student's t-test (Wikipedia).
- t-критерий Стьюдента (Википедия).
- Распределение Стьюдента (Википедия).
- Квантили распределения Стьюдента (Википедия).