Участник:Anton/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 30: Строка 30:
Здесь <tex>S^2_{int}</tex> - внутригрупповая дисперсия:
Здесь <tex>S^2_{int}</tex> - внутригрупповая дисперсия:
::<tex>S^2_{int}=\frac{1}{n-k}\sum_{i=1}^k\sum_{j=1}^{n_i}\bigl(x_{ij}-\overline{X}_i\bigr)^2</tex>
::<tex>S^2_{int}=\frac{1}{n-k}\sum_{i=1}^k\sum_{j=1}^{n_i}\bigl(x_{ij}-\overline{X}_i\bigr)^2</tex>
 +
 +
 +
=== Описание метода ===
 +
# Упорядочить средние значения выборок по убыванию.
 +
# Для каждой соседней пары начиная с первой выполнить проверки значимости разности средних. Для проверки рассчитывается значение LSD. Для случая одинаково количества наблюдений в каждой выборке используется формула: <tex>LSD = t_{n-k, \alpha} \sqrt{\frac{2}{n_i}S_{BH}^2} = \sqrt{\frac{2}{n_i}S_{BH}^2}F_{1, n-k, \alpha}</tex>. Это значение используется для проверок всех пар. В ситуации когда объемы выборок различаются, используется формула: <tex>LSD_{a,b} = t_{n-k, \alpha} \sqrt{\frac{n_a + n_b}{n_a n_b}S_{BH}^2} = \sqrt{\frac{n_a + n_b}{n_a n_b}S_{BH}^2}F_{1, n-k, \alpha}</tex>
 +
#
 +
#
=== Критическая область ===
=== Критическая область ===

Версия 17:07, 4 января 2010

Метод LSD = Метод группирования выборок с наименее значимой разницей = Least Significant difference.


Метод LSD позволяет проверять равенство средних значений нескольких выборок. При этом объемы выборок могут быть различными.

Часто возникает ситуация, когда необходимо сравнить между собой не два средних значения, а несколько. Сравнение с помощью дисперсионного анализа позволяет выяснить можем ли мы считать их равными. В случае когда они не равны, представляет интерес выяснение вопроса, какие средние значения равны между собой, а какие - нет. Для осуществления такой проверки необходимы специальные критерии. Многократное использование критериев для сравнения средних двух выборок недопустимо, поскольку

Метод LSD

Содержание

Пример использования

 X_i - цены на i-ое лекарство в разных аптеках. Вопрос: какие лекарства взаимозаменяемы по цене? Делим лекарства на ценовые коридоры.

Описание критерия

Имеется k выборок x^{n_1}_1, . . . , x^{n_k}_k объемом n_i (i=1,...,k ) каждая. Средние значения выборок обозначим через \mu_i.

Дополнительные предположения

Нулевая гипотеза

Метод LSD проверяет нулевую гипотезу H_0 о том, что средние значения всех k выборок одинаковы.

H_0: \mu_1 = \mu_2 =  . . . = \mu_k

Альтернативная гипотеза H_1: существует, по крайней мере, две выборки i и j (i \neq j) с несовпадающими средними значениями.

H_1: \mu_i  \neq \mu_j (для некоторых i \neq j).

Статистика метода LSD

Статистика метода LSD вычисляется в соответствии с соотношением:

T  = \frac{\overline{X}_{i+1} - \overline{X}_{i}}{\sqrt{\frac{n_i + n_{i+1}}{n_i \cdot n_{i+1}} \cdot s^2_{int}}}.

Здесь S^2_{int} - внутригрупповая дисперсия:

S^2_{int}=\frac{1}{n-k}\sum_{i=1}^k\sum_{j=1}^{n_i}\bigl(x_{ij}-\overline{X}_i\bigr)^2


Описание метода

  1. Упорядочить средние значения выборок по убыванию.
  2. Для каждой соседней пары начиная с первой выполнить проверки значимости разности средних. Для проверки рассчитывается значение LSD. Для случая одинаково количества наблюдений в каждой выборке используется формула: LSD = t_{n-k, \alpha} \sqrt{\frac{2}{n_i}S_{BH}^2} = \sqrt{\frac{2}{n_i}S_{BH}^2}F_{1, n-k, \alpha}. Это значение используется для проверок всех пар. В ситуации когда объемы выборок различаются, используется формула: LSD_{a,b} = t_{n-k, \alpha} \sqrt{\frac{n_a + n_b}{n_a n_b}S_{BH}^2} = \sqrt{\frac{n_a + n_b}{n_a n_b}S_{BH}^2}F_{1, n-k, \alpha}

Критическая область

Для статистики метода LSD критической областью при уровне значимости \alpha является область

\Omega_{\alpha}:\; T>t_{n-k,\alpha}

где  t_{n-k,\alpha} - квантиль распределения Стьюдента.

Для всех (i, i+1) проверяем гипотезу \overline{X}_{i+1} = \overline{X}_{i}. Если нулевая гипотеза H_0 выполнена, тогда объединяем X_i с X_{i+1}.

Примечание

Это односторонний критерий.

История

Предложен в 70-х годах.

Литература

  1. Закс Л. Статистическое оценивание. — М.: Статистика, 1976. — 600 с.
  2. Лапач С. Н., Чубенко А. В., Бабич П. Н. Статистические методы в медико-биологических исследованиях с использованием Excel. — Киев: Морион, 2001. — 408 с.

См. также

Ссылки


Данная статья является непроверенным учебным заданием.
Студент: Участник:Anton
Преподаватель: Участник:Vokov
Срок: 15 декабря 2009

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Личные инструменты