Критерий Стьюдента

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 1: Строка 1:
{{TOCright}}
{{TOCright}}
-
'''t-Критерий Стьюдента''' — общее название для [[статистический тест|статистических тестов]]), в которых статистика критерия имеет [[распределение Стьюдента]]. Наиболее часто t-критерии применяются для проверки равенства средних значений в двух нормальных [[выборка]]х.
+
'''t-критерий Стьюдента''' — общее название для [[статистический тест|статистических тестов]], в которых статистика критерия имеет [[распределение Стьюдента]]. Наиболее часто t-критерии применяются для проверки равенства средних значений в двух нормальных [[выборка]]х.
-
Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить проверку нормальности.
+
Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить [[Критерии нормальности|проверку нормальности]].
== Сравнение выборочного среднего с заданным значением ==
== Сравнение выборочного среднего с заданным значением ==
 +
Задана выборка <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R}</tex>.
Задана выборка <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R}</tex>.
-
Дополнительное предположение: выборка нормальна.
+
'''Дополнительное предположение:''' выборка нормальна.
-
Нулевая гипотеза <tex>H_0:\; \bar x = \mu</tex> (среднее равно <tex>\mu</tex>).
+
'''Нулевая гипотеза''' <tex>H_0:\; \bar x = \mu</tex> (выборочное среднее равно заданному числу <tex>\mu</tex>).
-
Статистика критерия:
+
'''Статистика критерия:'''
::<tex>\displaystyle t = \frac{(\bar x - \mu)\sqrt{m}}{s}</tex>
::<tex>\displaystyle t = \frac{(\bar x - \mu)\sqrt{m}}{s}</tex>
имеет [[распределение Стьюдента]] с <tex>m-1</tex> степенями свободы,
имеет [[распределение Стьюдента]] с <tex>m-1</tex> степенями свободы,
Строка 19: Строка 20:
::<tex>\displaystyle s^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2</tex> — выборочная дисперсия.
::<tex>\displaystyle s^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2</tex> — выборочная дисперсия.
-
Критерий (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
+
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
* против альтернативы <tex>H_1:\; \bar x \neq \mu</tex>
* против альтернативы <tex>H_1:\; \bar x \neq \mu</tex>
Строка 33: Строка 34:
== Сравнение двух выборочных средних при известных дисперсиях ==
== Сравнение двух выборочных средних при известных дисперсиях ==
-
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>.
 
-
Дополнительные предположения:
+
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>.
 +
 
 +
'''Дополнительные предположения:'''
* обе выборки нормальны;
* обе выборки нормальны;
-
* значения дисперсий <tex> \sigma^2_x,\, \sigma^2_y </tex> известны априори; это означает, что дисперсии были оценены заранее не по этим выборкам, а исходя из какой-то другой информации; случай, когда такого источника информации нет и дисперсии приходится оценивать по самим выборкам, описан [[#Сравнение двух выборочных средних при неизвестных неравных дисперсиях|ниже]].
+
* значения дисперсий <tex> \sigma^2_x,\, \sigma^2_y </tex> известны априори; это означает, что дисперсии были оценены заранее не по этим выборкам, а исходя из какой-то другой информации; случай «неизвестных дисперсий», когда такого источника информации нет и дисперсии приходится оценивать по самим выборкам, [[#Сравнение двух выборочных средних при неизвестных неравных дисперсиях|описан ниже]].
-
Нулевая гипотеза <tex>H_0:\; \bar x = \bar y</tex> (средние в двух выборках равны).
+
'''Нулевая гипотеза''' <tex>H_0:\; \bar x = \bar y</tex> (средние в двух выборках равны).
-
Статистика критерия:
+
'''Статистика критерия:'''
-
::<tex>z = (\bar x - \bar y) \left( \frac{\sigma^2_x}{m} +\frac{\sigma^2_y}{n} \right)^{-1/2}</tex>,
+
::<tex>z = (\bar x - \bar y) \left( \frac{\sigma^2_x}{m} +\frac{\sigma^2_y}{n} \right)^{-1/2}</tex>
имеет стандартное [[нормальное распределение]] <tex>\mathcal{N}(0,1)</tex>,
имеет стандартное [[нормальное распределение]] <tex>\mathcal{N}(0,1)</tex>,
где
где
-
::<tex>\displaystyle \bar x = \frac1m \sum_{i=1}^m x_i,\; \bar y = \frac1n \sum_{i=1}^n y_i</tex> — выборочные средние.
+
::<tex>\displaystyle \bar x = \frac1m \sum_{i=1}^m x_i,\;\; \bar y = \frac1n \sum_{i=1}^n y_i</tex> — выборочные средние.
-
Критерий (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
+
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
* против альтернативы <tex>H_1:\; \bar x \neq \bar y</tex>
* против альтернативы <tex>H_1:\; \bar x \neq \bar y</tex>
Строка 62: Строка 64:
== Сравнение двух выборочных средних при неизвестных равных дисперсиях ==
== Сравнение двух выборочных средних при неизвестных равных дисперсиях ==
 +
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>.
 +
 +
'''Дополнительные предположения:'''
 +
* обе выборки нормальны;
 +
* значения дисперсий равны: <tex> \sigma^2_x = \sigma^2_y </tex>, но априори не известны.
 +
 +
'''Нулевая гипотеза''' <tex>H_0:\; \bar x = \bar y</tex> (средние в двух выборках равны).
 +
 +
'''Статистика критерия:'''
 +
::<tex>t = \left( \frac{\bar x - \bar y}{s} \right) \sqrt{ \frac{mn}{m+n} }</tex>
 +
имеет [[распределение Стьюдента]] с <tex>m+n-2</tex> степенями свободы,
 +
где
 +
::<tex>\displaystyle s_x^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2,\;\; s_y^2 = \frac1{n-1} \sum_{i=1}^n \left( y_i - \bar y \right)^2</tex> — выборочные дисперсии;
 +
::<tex>\displaystyle s^2 = \frac{(m-1)s_x^2+(n-1)s_y^2}{m+n-2}</tex>;
 +
::<tex>\displaystyle \bar x = \frac1m \sum_{i=1}^m x_i,\;\; \bar y = \frac1n \sum_{i=1}^n y_i</tex> — выборочные средние.
 +
 +
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
 +
 +
* против альтернативы <tex>H_1:\; \bar x \neq \bar y</tex>
 +
::если <tex> |z| > t_{\alpha/2} </tex>, то нулевая гипотеза отвергается;
 +
 +
* против альтернативы <tex>H'_1:\; \bar x < \bar y</tex>
 +
::если <tex> z < t_{\alpha} </tex>, то нулевая гипотеза отвергается;
 +
 +
* против альтернативы <tex>H''_1:\; \bar x > \bar y</tex>
 +
::если <tex> z > t_{1-\alpha} </tex>, то нулевая гипотеза отвергается;
 +
где
 +
<tex> t_{\alpha} </tex> есть <tex>\alpha</tex>-[[квантиль]] распределения Стьюдента с <tex>m+n-2</tex> степенями свободы.
== Сравнение двух выборочных средних при неизвестных неравных дисперсиях ==
== Сравнение двух выборочных средних при неизвестных неравных дисперсиях ==
 +
Задача сравнения средних двух нормально распределённых выборок при неизвестных и неравных дисперсиях известна как проблема Беренса-Фишера. Точного решения этой задачи до настоящего времени нет. На практике используются различные приближения.
 +
 +
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>.
 +
 +
'''Дополнительное предположение:''' обе выборки нормальны.
 +
 +
'''Нулевая гипотеза''' <tex>H_0:\; \bar x = \bar y</tex> (средние в двух выборках равны).
 +
 +
'''Статистика критерия:'''
 +
::<tex>t = \frac{\bar x - \bar y}{s}</tex>
 +
где
 +
::<tex>\displaystyle s_x^2 = \sum_{i=1}^m \left( x_i - \bar x \right)^2,\;\; s_y^2 = \frac1{n-1} \sum_{i=1}^n \left( y_i - \bar y \right)^2</tex> — выборочные дисперсии;
 +
::<tex>\displaystyle s^2 = \frac1m s_x^2 + \frac1n s_y^2</tex>;
 +
::<tex>\displaystyle \bar x = \frac1m \sum_{i=1}^m x_i,\;\; \bar y = \frac1n \sum_{i=1}^n y_i</tex> — выборочные средние.
 +
 +
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
 +
 +
* против альтернативы <tex>H_1:\; \bar x \neq \bar y</tex>
 +
::если <tex> t > t'_{\alpha/2} </tex>, то нулевая гипотеза отвергается;
 +
 +
* против альтернативы <tex>H'_1:\; \bar x < \bar y</tex>
 +
::если <tex> t < t'_{\alpha} </tex>, то нулевая гипотеза отвергается;
 +
 +
* против альтернативы <tex>H''_1:\; \bar x > \bar y</tex>
 +
::если <tex> t > t'_{1-\alpha} </tex>, то нулевая гипотеза отвергается;
 +
где
 +
::<tex> t'_{\alpha} = \frac{\nu_x t_{\alpha}(m-1) + \nu_y t_{\alpha}(n-1)}{\nu_x+\nu_y},\; \nu_x=\frac{s_x^2}m,\; \nu_y=\frac{s_y^2}n </tex>;
 +
::<tex> t_{\alpha}(f) </tex> есть <tex>\alpha</tex>-[[квантиль]] распределения Стьюдента с <tex>f</tex> степенями свободы.
== Сравнение двух выборочных средних в связанных выборках ==
== Сравнение двух выборочных средних в связанных выборках ==
== История ==
== История ==
-
Критерий был разработан Уильямом Госсеттом для оценки качества пива на пивоваренных заводах [[Гиннесс]]а в Дублине (Ирландия). В&nbsp;связи с обязательствами перед компанией по неразглашению коммерческой тайны (руководство Гиннесса считало таковой использование статистического аппарата в своей работе), статья Госсетта вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).
+
Критерий был разработан Уильямом Госсеттом для оценки качества пива на пивоваренных заводах Гиннесса в Дублине (Ирландия). В&nbsp;связи с обязательствами перед компанией по неразглашению коммерческой тайны (руководство Гиннесса считало таковой использование статистического аппарата в своей работе), статья Госсетта вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).

Версия 15:09, 12 августа 2008

Содержание

t-критерий Стьюдента — общее название для статистических тестов, в которых статистика критерия имеет распределение Стьюдента. Наиболее часто t-критерии применяются для проверки равенства средних значений в двух нормальных выборках.

Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить проверку нормальности.

Сравнение выборочного среднего с заданным значением

Задана выборка x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R}.

Дополнительное предположение: выборка нормальна.

Нулевая гипотеза H_0:\; \bar x = \mu (выборочное среднее равно заданному числу \mu).

Статистика критерия:

\displaystyle t = \frac{(\bar x - \mu)\sqrt{m}}{s}

имеет распределение Стьюдента с m-1 степенями свободы, где

\displaystyle \bar x = \frac1m \sum_{i=1}^m x_i — выборочное среднее,
\displaystyle s^2  = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2 — выборочная дисперсия.

Критерий (при уровне значимости \alpha):

  • против альтернативы H_1:\; \bar x \neq \mu
если  |t| > t_{\alpha/2} , то нулевая гипотеза отвергается;
  • против альтернативы H'_1:\; \bar x < \mu
если  t < t_{\alpha} , то нулевая гипотеза отвергается;
  • против альтернативы H''_1:\; \bar x > \mu
если  t > t_{1-\alpha} , то нулевая гипотеза отвергается;

где  t_{\alpha} есть \alpha-квантиль распределения Стьюдента с m-1 степенями свободы.

Сравнение двух выборочных средних при известных дисперсиях

Заданы две выборки x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}.

Дополнительные предположения:

  • обе выборки нормальны;
  • значения дисперсий  \sigma^2_x,\, \sigma^2_y известны априори; это означает, что дисперсии были оценены заранее не по этим выборкам, а исходя из какой-то другой информации; случай «неизвестных дисперсий», когда такого источника информации нет и дисперсии приходится оценивать по самим выборкам, описан ниже.

Нулевая гипотеза H_0:\; \bar x = \bar y (средние в двух выборках равны).

Статистика критерия:

z = (\bar x - \bar y) \left( \frac{\sigma^2_x}{m} +\frac{\sigma^2_y}{n} \right)^{-1/2}

имеет стандартное нормальное распределение \mathcal{N}(0,1), где

\displaystyle \bar x = \frac1m \sum_{i=1}^m x_i,\;\; \bar y = \frac1n \sum_{i=1}^n y_i — выборочные средние.

Критерий (при уровне значимости \alpha):

  • против альтернативы H_1:\; \bar x \neq \bar y
если  |z| > \Phi_{\alpha/2} , то нулевая гипотеза отвергается;
  • против альтернативы H'_1:\; \bar x < \bar y
если  z < \Phi_{\alpha} , то нулевая гипотеза отвергается;
  • против альтернативы H''_1:\; \bar x > \bar y
если  z > \Phi_{1-\alpha} , то нулевая гипотеза отвергается;

где  \Phi_{\alpha} есть \alpha-квантиль стандартного нормального распределения.

Сравнение двух выборочных средних при неизвестных равных дисперсиях

Заданы две выборки x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}.

Дополнительные предположения:

  • обе выборки нормальны;
  • значения дисперсий равны:  \sigma^2_x = \sigma^2_y , но априори не известны.

Нулевая гипотеза H_0:\; \bar x = \bar y (средние в двух выборках равны).

Статистика критерия:

t = \left( \frac{\bar x - \bar y}{s} \right) \sqrt{ \frac{mn}{m+n} }

имеет распределение Стьюдента с m+n-2 степенями свободы, где

\displaystyle s_x^2  = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2,\;\; s_y^2  = \frac1{n-1} \sum_{i=1}^n \left( y_i - \bar y \right)^2 — выборочные дисперсии;
\displaystyle s^2  = \frac{(m-1)s_x^2+(n-1)s_y^2}{m+n-2};
\displaystyle \bar x = \frac1m \sum_{i=1}^m x_i,\;\; \bar y = \frac1n \sum_{i=1}^n y_i — выборочные средние.

Критерий (при уровне значимости \alpha):

  • против альтернативы H_1:\; \bar x \neq \bar y
если  |z| > t_{\alpha/2} , то нулевая гипотеза отвергается;
  • против альтернативы H'_1:\; \bar x < \bar y
если  z < t_{\alpha} , то нулевая гипотеза отвергается;
  • против альтернативы H''_1:\; \bar x > \bar y
если  z > t_{1-\alpha} , то нулевая гипотеза отвергается;

где  t_{\alpha} есть \alpha-квантиль распределения Стьюдента с m+n-2 степенями свободы.

Сравнение двух выборочных средних при неизвестных неравных дисперсиях

Задача сравнения средних двух нормально распределённых выборок при неизвестных и неравных дисперсиях известна как проблема Беренса-Фишера. Точного решения этой задачи до настоящего времени нет. На практике используются различные приближения.

Заданы две выборки x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}.

Дополнительное предположение: обе выборки нормальны.

Нулевая гипотеза H_0:\; \bar x = \bar y (средние в двух выборках равны).

Статистика критерия:

t = \frac{\bar x - \bar y}{s}

где

\displaystyle s_x^2 = \sum_{i=1}^m \left( x_i - \bar x \right)^2,\;\; s_y^2  = \frac1{n-1} \sum_{i=1}^n \left( y_i - \bar y \right)^2 — выборочные дисперсии;
\displaystyle s^2  = \frac1m s_x^2 + \frac1n s_y^2;
\displaystyle \bar x = \frac1m \sum_{i=1}^m x_i,\;\; \bar y = \frac1n \sum_{i=1}^n y_i — выборочные средние.

Критерий (при уровне значимости \alpha):

  • против альтернативы H_1:\; \bar x \neq \bar y
если  t > t'_{\alpha/2} , то нулевая гипотеза отвергается;
  • против альтернативы H'_1:\; \bar x < \bar y
если  t < t'_{\alpha} , то нулевая гипотеза отвергается;
  • против альтернативы H''_1:\; \bar x > \bar y
если  t > t'_{1-\alpha} , то нулевая гипотеза отвергается;

где

 t'_{\alpha} = \frac{\nu_x t_{\alpha}(m-1) + \nu_y t_{\alpha}(n-1)}{\nu_x+\nu_y},\; \nu_x=\frac{s_x^2}m,\; \nu_y=\frac{s_y^2}n  ;
 t_{\alpha}(f) есть \alpha-квантиль распределения Стьюдента с f степенями свободы.

Сравнение двух выборочных средних в связанных выборках

История

Критерий был разработан Уильямом Госсеттом для оценки качества пива на пивоваренных заводах Гиннесса в Дублине (Ирландия). В связи с обязательствами перед компанией по неразглашению коммерческой тайны (руководство Гиннесса считало таковой использование статистического аппарата в своей работе), статья Госсетта вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).


Литература

  1. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки

Личные инструменты