Критерий Стьюдента
Материал из MachineLearning.
Строка 1: | Строка 1: | ||
{{TOCright}} | {{TOCright}} | ||
- | '''t- | + | '''t-критерий Стьюдента''' — общее название для [[статистический тест|статистических тестов]], в которых статистика критерия имеет [[распределение Стьюдента]]. Наиболее часто t-критерии применяются для проверки равенства средних значений в двух нормальных [[выборка]]х. |
- | Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить проверку нормальности. | + | Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить [[Критерии нормальности|проверку нормальности]]. |
== Сравнение выборочного среднего с заданным значением == | == Сравнение выборочного среднего с заданным значением == | ||
+ | |||
Задана выборка <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R}</tex>. | Задана выборка <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R}</tex>. | ||
- | Дополнительное предположение: выборка нормальна. | + | '''Дополнительное предположение:''' выборка нормальна. |
- | Нулевая гипотеза <tex>H_0:\; \bar x = \mu</tex> (среднее равно <tex>\mu</tex>). | + | '''Нулевая гипотеза''' <tex>H_0:\; \bar x = \mu</tex> (выборочное среднее равно заданному числу <tex>\mu</tex>). |
- | Статистика критерия: | + | '''Статистика критерия:''' |
::<tex>\displaystyle t = \frac{(\bar x - \mu)\sqrt{m}}{s}</tex> | ::<tex>\displaystyle t = \frac{(\bar x - \mu)\sqrt{m}}{s}</tex> | ||
имеет [[распределение Стьюдента]] с <tex>m-1</tex> степенями свободы, | имеет [[распределение Стьюдента]] с <tex>m-1</tex> степенями свободы, | ||
Строка 19: | Строка 20: | ||
::<tex>\displaystyle s^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2</tex> — выборочная дисперсия. | ::<tex>\displaystyle s^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2</tex> — выборочная дисперсия. | ||
- | Критерий (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>): | + | '''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>): |
* против альтернативы <tex>H_1:\; \bar x \neq \mu</tex> | * против альтернативы <tex>H_1:\; \bar x \neq \mu</tex> | ||
Строка 33: | Строка 34: | ||
== Сравнение двух выборочных средних при известных дисперсиях == | == Сравнение двух выборочных средних при известных дисперсиях == | ||
- | |||
- | Дополнительные предположения: | + | Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>. |
+ | |||
+ | '''Дополнительные предположения:''' | ||
* обе выборки нормальны; | * обе выборки нормальны; | ||
- | * значения дисперсий <tex> \sigma^2_x,\, \sigma^2_y </tex> известны априори; это означает, что дисперсии были оценены заранее не по этим выборкам, а исходя из какой-то другой информации; случай, когда такого источника информации нет и дисперсии приходится оценивать по самим выборкам, | + | * значения дисперсий <tex> \sigma^2_x,\, \sigma^2_y </tex> известны априори; это означает, что дисперсии были оценены заранее не по этим выборкам, а исходя из какой-то другой информации; случай «неизвестных дисперсий», когда такого источника информации нет и дисперсии приходится оценивать по самим выборкам, [[#Сравнение двух выборочных средних при неизвестных неравных дисперсиях|описан ниже]]. |
- | Нулевая гипотеза <tex>H_0:\; \bar x = \bar y</tex> (средние в двух выборках равны). | + | '''Нулевая гипотеза''' <tex>H_0:\; \bar x = \bar y</tex> (средние в двух выборках равны). |
- | Статистика критерия: | + | '''Статистика критерия:''' |
- | ::<tex>z = (\bar x - \bar y) \left( \frac{\sigma^2_x}{m} +\frac{\sigma^2_y}{n} \right)^{-1/2}</tex> | + | ::<tex>z = (\bar x - \bar y) \left( \frac{\sigma^2_x}{m} +\frac{\sigma^2_y}{n} \right)^{-1/2}</tex> |
имеет стандартное [[нормальное распределение]] <tex>\mathcal{N}(0,1)</tex>, | имеет стандартное [[нормальное распределение]] <tex>\mathcal{N}(0,1)</tex>, | ||
где | где | ||
- | ::<tex>\displaystyle \bar x = \frac1m \sum_{i=1}^m x_i,\; \bar y = \frac1n \sum_{i=1}^n y_i</tex> — выборочные средние. | + | ::<tex>\displaystyle \bar x = \frac1m \sum_{i=1}^m x_i,\;\; \bar y = \frac1n \sum_{i=1}^n y_i</tex> — выборочные средние. |
- | Критерий (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>): | + | '''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>): |
* против альтернативы <tex>H_1:\; \bar x \neq \bar y</tex> | * против альтернативы <tex>H_1:\; \bar x \neq \bar y</tex> | ||
Строка 62: | Строка 64: | ||
== Сравнение двух выборочных средних при неизвестных равных дисперсиях == | == Сравнение двух выборочных средних при неизвестных равных дисперсиях == | ||
+ | Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>. | ||
+ | |||
+ | '''Дополнительные предположения:''' | ||
+ | * обе выборки нормальны; | ||
+ | * значения дисперсий равны: <tex> \sigma^2_x = \sigma^2_y </tex>, но априори не известны. | ||
+ | |||
+ | '''Нулевая гипотеза''' <tex>H_0:\; \bar x = \bar y</tex> (средние в двух выборках равны). | ||
+ | |||
+ | '''Статистика критерия:''' | ||
+ | ::<tex>t = \left( \frac{\bar x - \bar y}{s} \right) \sqrt{ \frac{mn}{m+n} }</tex> | ||
+ | имеет [[распределение Стьюдента]] с <tex>m+n-2</tex> степенями свободы, | ||
+ | где | ||
+ | ::<tex>\displaystyle s_x^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2,\;\; s_y^2 = \frac1{n-1} \sum_{i=1}^n \left( y_i - \bar y \right)^2</tex> — выборочные дисперсии; | ||
+ | ::<tex>\displaystyle s^2 = \frac{(m-1)s_x^2+(n-1)s_y^2}{m+n-2}</tex>; | ||
+ | ::<tex>\displaystyle \bar x = \frac1m \sum_{i=1}^m x_i,\;\; \bar y = \frac1n \sum_{i=1}^n y_i</tex> — выборочные средние. | ||
+ | |||
+ | '''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>): | ||
+ | |||
+ | * против альтернативы <tex>H_1:\; \bar x \neq \bar y</tex> | ||
+ | ::если <tex> |z| > t_{\alpha/2} </tex>, то нулевая гипотеза отвергается; | ||
+ | |||
+ | * против альтернативы <tex>H'_1:\; \bar x < \bar y</tex> | ||
+ | ::если <tex> z < t_{\alpha} </tex>, то нулевая гипотеза отвергается; | ||
+ | |||
+ | * против альтернативы <tex>H''_1:\; \bar x > \bar y</tex> | ||
+ | ::если <tex> z > t_{1-\alpha} </tex>, то нулевая гипотеза отвергается; | ||
+ | где | ||
+ | <tex> t_{\alpha} </tex> есть <tex>\alpha</tex>-[[квантиль]] распределения Стьюдента с <tex>m+n-2</tex> степенями свободы. | ||
== Сравнение двух выборочных средних при неизвестных неравных дисперсиях == | == Сравнение двух выборочных средних при неизвестных неравных дисперсиях == | ||
+ | Задача сравнения средних двух нормально распределённых выборок при неизвестных и неравных дисперсиях известна как проблема Беренса-Фишера. Точного решения этой задачи до настоящего времени нет. На практике используются различные приближения. | ||
+ | |||
+ | Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>. | ||
+ | |||
+ | '''Дополнительное предположение:''' обе выборки нормальны. | ||
+ | |||
+ | '''Нулевая гипотеза''' <tex>H_0:\; \bar x = \bar y</tex> (средние в двух выборках равны). | ||
+ | |||
+ | '''Статистика критерия:''' | ||
+ | ::<tex>t = \frac{\bar x - \bar y}{s}</tex> | ||
+ | где | ||
+ | ::<tex>\displaystyle s_x^2 = \sum_{i=1}^m \left( x_i - \bar x \right)^2,\;\; s_y^2 = \frac1{n-1} \sum_{i=1}^n \left( y_i - \bar y \right)^2</tex> — выборочные дисперсии; | ||
+ | ::<tex>\displaystyle s^2 = \frac1m s_x^2 + \frac1n s_y^2</tex>; | ||
+ | ::<tex>\displaystyle \bar x = \frac1m \sum_{i=1}^m x_i,\;\; \bar y = \frac1n \sum_{i=1}^n y_i</tex> — выборочные средние. | ||
+ | |||
+ | '''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>): | ||
+ | |||
+ | * против альтернативы <tex>H_1:\; \bar x \neq \bar y</tex> | ||
+ | ::если <tex> t > t'_{\alpha/2} </tex>, то нулевая гипотеза отвергается; | ||
+ | |||
+ | * против альтернативы <tex>H'_1:\; \bar x < \bar y</tex> | ||
+ | ::если <tex> t < t'_{\alpha} </tex>, то нулевая гипотеза отвергается; | ||
+ | |||
+ | * против альтернативы <tex>H''_1:\; \bar x > \bar y</tex> | ||
+ | ::если <tex> t > t'_{1-\alpha} </tex>, то нулевая гипотеза отвергается; | ||
+ | где | ||
+ | ::<tex> t'_{\alpha} = \frac{\nu_x t_{\alpha}(m-1) + \nu_y t_{\alpha}(n-1)}{\nu_x+\nu_y},\; \nu_x=\frac{s_x^2}m,\; \nu_y=\frac{s_y^2}n </tex>; | ||
+ | ::<tex> t_{\alpha}(f) </tex> есть <tex>\alpha</tex>-[[квантиль]] распределения Стьюдента с <tex>f</tex> степенями свободы. | ||
== Сравнение двух выборочных средних в связанных выборках == | == Сравнение двух выборочных средних в связанных выборках == | ||
== История == | == История == | ||
- | Критерий был разработан Уильямом Госсеттом для оценки качества пива на пивоваренных заводах | + | Критерий был разработан Уильямом Госсеттом для оценки качества пива на пивоваренных заводах Гиннесса в Дублине (Ирландия). В связи с обязательствами перед компанией по неразглашению коммерческой тайны (руководство Гиннесса считало таковой использование статистического аппарата в своей работе), статья Госсетта вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент). |
Версия 15:09, 12 августа 2008
t-критерий Стьюдента — общее название для статистических тестов, в которых статистика критерия имеет распределение Стьюдента. Наиболее часто t-критерии применяются для проверки равенства средних значений в двух нормальных выборках.
Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить проверку нормальности.
Сравнение выборочного среднего с заданным значением
Задана выборка .
Дополнительное предположение: выборка нормальна.
Нулевая гипотеза (выборочное среднее равно заданному числу ).
Статистика критерия:
имеет распределение Стьюдента с степенями свободы, где
- — выборочное среднее,
- — выборочная дисперсия.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где есть -квантиль распределения Стьюдента с степенями свободы.
Сравнение двух выборочных средних при известных дисперсиях
Заданы две выборки .
Дополнительные предположения:
- обе выборки нормальны;
- значения дисперсий известны априори; это означает, что дисперсии были оценены заранее не по этим выборкам, а исходя из какой-то другой информации; случай «неизвестных дисперсий», когда такого источника информации нет и дисперсии приходится оценивать по самим выборкам, описан ниже.
Нулевая гипотеза (средние в двух выборках равны).
Статистика критерия:
имеет стандартное нормальное распределение , где
- — выборочные средние.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где есть -квантиль стандартного нормального распределения.
Сравнение двух выборочных средних при неизвестных равных дисперсиях
Заданы две выборки .
Дополнительные предположения:
- обе выборки нормальны;
- значения дисперсий равны: , но априори не известны.
Нулевая гипотеза (средние в двух выборках равны).
Статистика критерия:
имеет распределение Стьюдента с степенями свободы, где
- — выборочные дисперсии;
- ;
- — выборочные средние.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где есть -квантиль распределения Стьюдента с степенями свободы.
Сравнение двух выборочных средних при неизвестных неравных дисперсиях
Задача сравнения средних двух нормально распределённых выборок при неизвестных и неравных дисперсиях известна как проблема Беренса-Фишера. Точного решения этой задачи до настоящего времени нет. На практике используются различные приближения.
Заданы две выборки .
Дополнительное предположение: обе выборки нормальны.
Нулевая гипотеза (средние в двух выборках равны).
Статистика критерия:
где
- — выборочные дисперсии;
- ;
- — выборочные средние.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где
- ;
- есть -квантиль распределения Стьюдента с степенями свободы.
Сравнение двух выборочных средних в связанных выборках
История
Критерий был разработан Уильямом Госсеттом для оценки качества пива на пивоваренных заводах Гиннесса в Дублине (Ирландия). В связи с обязательствами перед компанией по неразглашению коммерческой тайны (руководство Гиннесса считало таковой использование статистического аппарата в своей работе), статья Госсетта вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
Ссылки
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
- Статистика (функция выборки)
- Student's t-test — статья в англоязычной Википедии.
- t-критерий Стьюдента — статья в русской Википедии.