Метод LSD

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Это задание!)
 
(3 промежуточные версии не показаны)
Строка 1: Строка 1:
-
'''Метод LSD = Метод группирования выборок с наименее значимой разницей = Least Significant difference'''.
+
{{Задание|Anton|Vokov|8 января 2009}}
-
'''Метод LSD''' позволяет проверять равенство [[среднее значение| средних значений]] нескольких [[выборка| выборок]]. При этом объемы выборок могут быть различными.
+
'''Метод LSD = Метод группирования выборок с наименее значимой разницей = Least Significant Difference method'''.
 +
 
 +
'''Метод LSD''' позволяет проверять равенство [[среднее значение| средних значений]] нескольких [[выборка|выборок]] и выделять группы выборок с одинаковыми средними значениями. Метод изобретен Фишером в 1935 году <ref>''S. E. Maxwell, H. D. Delaney''. Designing experiments and analyzing data: a model comparison perspective. 2003. P. 229.</ref> и является первым методом [[Множественная проверка гипотез|множественных сравнений]]. Также известен как безопасный t-тест (protected t-test method).
 +
 
 +
== Описание метода ==
 +
'''Обозначения.''' Пусть имеется <tex>k</tex> выборок <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> объемом <tex>n_i</tex> (<tex>i=1,...,k </tex>) каждая. Через <tex>\mu_i</tex> обозначим математические ожидания распределений, из которых получены выборки.
 +
 +
'''Предположим''', что
 +
# Выборки <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> являются [[Нормальное распределение| нормально распределенными]].
 +
# Выборки <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> обладают одинаковыми дисперсиями.
 +
 
 +
Метод состоит из двух этапов:
 +
#Сначала при помощи [[Критерий Фишера|критерия Фишера]] проверяется гипотеза о равенстве всех <tex>\mu_i</tex>. Если гипотеза принимается, то метод останавливается, иначе переход к шагу 2.
 +
#Выборки упорядочиваются по возрастанию выборочных средних. После этого поэтапно проверяются гипотезы равенства средних соседних выборок помощи [[Критерий Стьюдента|критерия Стьюдента]]. В качестве оценки дисперсии используется внутригрупповое среднее. Если гипотеза принимается, то соответствующие выборки объединяются в одну группу.
 +
 
 +
Если выполнять только шаг 2, то получим ''небезопасный метод LSD (unprotected LSD method)''. Под ''небезопасностью'' понимается неконтролируемое увеличение вероятности ошибок 1-го рода при многократном применении критерия Стьюдента.
 +
 
 +
=== Критерий Фишера для проверки гипотезы о равенстве всех средних ===
 +
Пусть даны <tex>k</tex> выборок объемом <tex>n_i</tex> каждая с общим число элементов <tex>n</tex>, т.е.
 +
 
 +
<tex>\sum_{i=1}^k n_i = n</tex>.
 +
 
 +
Каждая группа (выборка) принадлежит нормально распределенной генеральной совокупности. Генеральные совокупности имеют равные, но неизвестные дисперсии.
 +
 
 +
'''Нулевая гипотеза.''' <tex>\mu_1 = \mu_2 = \dots = \mu_k </tex>.
 +
 
 +
'''Альтернатива.''' Среди групп имеются такие, которые имеют различные средние значения.
 +
 
 +
'''Статистика.''' <tex>\hat{F} = \frac{S^2_{ext}}{S^2_{int}} = \frac{\frac{1}{k-1}\sum_{i=1}^k n_i (\overline{x}_i - \overline{x})^2 }{\frac{1}{n - k}\sum_{i=1}^k \sum_{j=1}^{n_i} (x_i^j - \overline{x}_i)^2},</tex>
 +
 
 +
Здесь <tex> \overline{x}_i = \frac{1}{n_i} \sum_{j=1}^{n_i} x_i^j, \quad \overline{x} = \frac{1}{n} \sum_{i=1}^k \sum_{j=1}^{n_i} x_i^j = \frac{1}{n} \sum_{i=1}^k n_i \overline{x}_i . </tex>
 +
 
 +
'''Критическая область.''' Если все группы принадлежат одной и той же генеральной совокупности, то внитригрупповое среднее и межгрупповое среднее должны быть примерно равны. Если их отношение больше критического значения распределения Фишера с параметрами k-1, n-k и заданного уровня значимости <tex> \left( \hat{F} > F_{(k-1, n-k, \alpha)} \right) </tex>, то нулевая гипотеза отвергается.
 +
 
 +
=== Критерий Стьюдента для проверки гипотезы о равенстве соседних выборок ===
 +
'''Нулевая гипотеза.''' i-е среднее значение равно (i+1)-му среднему значению.
 +
 
 +
'''Альтернатива.''' i-е среднее значение меньше (i+1)-го.
 +
 
 +
'''Критерий.''' Вычисляют значение наименьшей значимой разности (least significant difference, LSD).
 +
 
 +
В случае выборок одинакового объема <tex>LSD = t_{n-k; \alpha} \sqrt{\frac{2}{n_i}S_{int}^2} = \sqrt{\frac{2}{n_i}S_{int}^2 F_{(1, n-k, \alpha)}} </tex>.
 +
 
 +
Для неравных объемов выборок <tex> LSD_{(i, i+1)} = t_{n-k; \alpha} \sqrt{\frac{n_i + n_{i+1}}{n_i n_{i+1}}S_{int}^2} = \sqrt{\frac{n_i + n_{i+1}}{n_i n_{i+1}} S_{int}^2 F_{(1, n-k, \alpha)}} </tex>.
 +
 
 +
Если разность между соседними средними значениями <tex>\Delta</tex> меньше LSD, то нет оснований отвергать нулевую гипотезу, иначе нулевую гипотезу отвергают и образуют границу между группами выборок.
== Пример использования ==
== Пример использования ==
-
<tex> X_i </tex> - цены на <tex>i</tex>-ое лекарство в разных аптеках.
 
-
Вопрос: какие лекарства взаимозаменяемы по цене?
 
-
Делим лекарства на ценовые коридоры.
 
-
== Описание критерия ==
+
'''Пример 1.''' <ref>''Закс Л.'' Статистическое оценивание. М.: Статистика. 1976. Стр. 465. </ref>
-
Имеется <tex>k</tex> выборок <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> объемом <tex>n_i</tex> (<tex>i=1,...,k </tex>) каждая. Средние значения выборок обозначим через <tex>\mu_i</tex>.
+
<tex> n_i = 8; \quad n = 48;\quad k = 6; \quad S_{int}^2 = 10.38; </tex>
 +
{|class="standard"
 +
! <tex> \overline{x}_i </tex>
 +
! <tex> \Delta </tex>
 +
|-
 +
| <tex> \overline{x}_1 = 26.8 </tex>
 +
| -
 +
|-
 +
| <tex> \overline{x}_2 = 26.3 </tex>
 +
| 0.5
 +
|-
 +
| <tex> \overline{x}_3 = 25.2 </tex>
 +
| 1.1
 +
|-
 +
| <tex> \overline{x}_4 = 19.8 </tex>
 +
| 5.4
 +
|-
 +
| <tex> \overline{x}_5 = 14.3 </tex>
 +
| 5.5
 +
|-
 +
| <tex> \overline{x}_6 = 11.8 </tex>
 +
| 2.5
 +
|}
-
=== Дополнительные предположения ===
+
Зафиксируем уровень значимости <tex>\alpha </tex> на уровне 0.05.
-
* ''Выборки <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> являются [[нормальная выборка| нормальными]]''
+
-
=== Нулевая гипотеза ===
+
1. Используем Критерий Фишера для проверки гипотезы равенства всех средних.
-
Метод LSD проверяет '''[[нулевая гипотеза| нулевую гипотезу]] <tex>H_0</tex>''' о том, что средние значения всех <tex>k</tex> выборок одинаковы.
+
-
::<tex>H_0: \mu_1 = \mu_2 = . . . = \mu_k</tex>
+
-
Альтернативная '''гипотеза <tex>H_1</tex>''': существует, по крайней мере, две выборки <tex>i</tex> и <tex>j</tex> (<tex>i \neq j</tex>) с несовпадающими средними значениями.
+
-
::<tex>H_1: \mu_i \neq \mu_j</tex> (для некоторых <tex>i \neq j</tex>).
+
-
=== Статистика метода LSD ===
+
Имеем <tex> \overline{x} = 20.7; \quad S_{ext}^2 = 335.68 \quad; \hat{F} = 32.34. </tex> Квантиль распределения Фишера <tex>F_{(5, 42, 0.05)} = 2.4377</tex>. Таким образом, гипотеза о равенстве всех средних отклоняется.
-
[[Статистика (функция выборки)| Статистика]] метода LSD вычисляется в соответствии с соотношением:
+
-
::<tex>T = \frac{\overline{X}_{i+1} - \overline{X}_{i}}{\sqrt{\frac{n_i + n_{i+1}}{n_i \cdot n_{i+1}} \cdot s^2_{int}}}</tex>.
+
-
Здесь <tex>S^2_{int}</tex> - внутригрупповая дисперсия:
+
-
::<tex>S^2_{int}=\frac{1}{n-k}\sum_{i=1}^k\sum_{j=1}^{n_i}\bigl(x_{ij}-\overline{X}_i\bigr)^2</tex>
+
-
=== Критическая область ===
+
2. Из таблиц имеем <tex>t_{42, 0.05} = 2.018.</tex>
-
Для статистики метода LSD [[критическая область| критической областью]] при [[Уровень значимости|уровне значимости]] <tex>\alpha</tex> является область
+
Вычисляем LSD: <tex>LSD = 2.018 \sqrt{\frac{2}{8} 10.38} = 3.25</tex>.
-
::<tex>\Omega_{\alpha}:\; T>t_{n-k,\alpha}</tex>
+
-
где <tex> t_{n-k,\alpha}</tex> - [[квантиль]] [[распределение Стьюдента| распределения Стьюдента]].
+
-
Для всех <tex>(i, i+1)</tex> проверяем гипотезу <tex>\overline{X}_{i+1} = \overline{X}_{i}</tex>. Если нулевая гипотеза <tex>H_0</tex> выполнена, тогда объединяем <tex>X_i</tex> с <tex>X_{i+1}</tex>.
+
Таким образом, на данном уровне значимости можно выделить три группы: 1, 2 и 3 выборки; 4 выборка; 5 и 6 выборки.
-
=== Примечание ===
+
== Обсуждение ==
-
Это [[односторонний критерий]].
+
Главным достоинством метода LSD является его простота и прозрачность.
-
== История ==
+
Главным недостатком метода LSD является неконтролируемый рост вероятности ошибки первого рода на шаге 2.
-
Предложен в 70-х годах.
+
Если же для уменьшения ошибки первого рода применить поправку Бонферрони, то очень сильно падает мощность критерия (возрастает вероятность ошибки второго рода). <ref>''Gerald Keller.'' Statistics for Management and Economics: Abbreviated Edition. 2008. P. 537. </ref>
 +
 
 +
Таким образом, рекомендуется использовать метод LSD на первом этапе анализа данных для выявления подозрительных областей. Для более аккуратного анализа рекомендуется использовать более современные методы. <ref>''Gerald Keller.'' Statistics for Management and Economics: Abbreviated Edition. 2008. P. 537. </ref>
 +
 
 +
== Сноски ==
 +
<references/>
== Литература ==
== Литература ==
# {{книга
# {{книга
-
|автор = Кобзарь А. И.
+
|автор = Закс Л.
-
|заглавие = Прикладная математическая статистика
+
|заглавие = Статистическое оценивание
-
|издательство = М.: Физматлит
+
|издательство = М.: Статистика
-
|год = 2006
+
|год = 1976
-
|страниц = 816
+
|страниц = 600
 +
}}
 +
# {{книга
 +
|автор = Лапач С. Н., Чубенко А. В., Бабич П. Н.
 +
|заглавие = Статистические методы в медико-биологических исследованиях с использованием Excel
 +
|издательство = Киев: Морион
 +
|год = 2001
 +
|страниц = 408
 +
}}
 +
# {{книга
 +
|автор = Scott E. Maxwell, Harold D. Delaney
 +
|заглавие = Designing experiments and analyzing data: a model comparison perspective
 +
|год = 2003
 +
}}
 +
# {{книга
 +
|автор = Jason C. Hsu
 +
|заглавие = Multiple comparisons: theory and methods
 +
|год = 1996
 +
}}
 +
# {{книга
 +
|автор = Gerald Keller
 +
|заглавие = Statistics for Management and Economics: Abbreviated Edition
 +
|год = 2008
}}
}}
Строка 51: Строка 131:
* [[Метод множественных сравнений Шеффе]]
* [[Метод множественных сравнений Шеффе]]
* [[Критерий Стьюдента]]
* [[Критерий Стьюдента]]
-
* [[Гипотеза сдвига]]
+
* [[Критерий Фишера]]
* [[Проверка статистических гипотез]]
* [[Проверка статистических гипотез]]
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)]]
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)]]
-
== Ссылки ==
+
[[Категория:Статистические тесты]]
-
* [http://www.webpages.uidaho.edu/~brian/stat401ch9_02.pdf Fisher’s least significant difference (LSD)]
+
[[Категория:Прикладная статистика]]
-
* [http://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7%D0%B0 Википедия: Проверка статистических гипотез]
+
-
* [http://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BA%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9 Википедия: Статистический критерий]
+
-
* [http://www.statsoft.ru/home/textbook/glossary Электронный статистический словарь StatSoft]
+
-
 
+
-
[[Категория: Прикладная статистика]]
+
-
[[Категория: Статистические тесты]]
+
-
 
+
-
{{Задание|Anton|Vokov|15 декабря 2009}}
+

Текущая версия

Данная статья является непроверенным учебным заданием.
Студент: Участник:Anton
Преподаватель: Участник:Vokov
Срок: 8 января 2009

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Метод LSD = Метод группирования выборок с наименее значимой разницей = Least Significant Difference method.

Метод LSD позволяет проверять равенство средних значений нескольких выборок и выделять группы выборок с одинаковыми средними значениями. Метод изобретен Фишером в 1935 году [1] и является первым методом множественных сравнений. Также известен как безопасный t-тест (protected t-test method).

Содержание

Описание метода

Обозначения. Пусть имеется k выборок x^{n_1}_1, . . . , x^{n_k}_k объемом n_i (i=1,...,k ) каждая. Через \mu_i обозначим математические ожидания распределений, из которых получены выборки.

Предположим, что

  1. Выборки x^{n_1}_1, . . . , x^{n_k}_k являются нормально распределенными.
  2. Выборки x^{n_1}_1, . . . , x^{n_k}_k обладают одинаковыми дисперсиями.

Метод состоит из двух этапов:

  1. Сначала при помощи критерия Фишера проверяется гипотеза о равенстве всех \mu_i. Если гипотеза принимается, то метод останавливается, иначе переход к шагу 2.
  2. Выборки упорядочиваются по возрастанию выборочных средних. После этого поэтапно проверяются гипотезы равенства средних соседних выборок помощи критерия Стьюдента. В качестве оценки дисперсии используется внутригрупповое среднее. Если гипотеза принимается, то соответствующие выборки объединяются в одну группу.

Если выполнять только шаг 2, то получим небезопасный метод LSD (unprotected LSD method). Под небезопасностью понимается неконтролируемое увеличение вероятности ошибок 1-го рода при многократном применении критерия Стьюдента.

Критерий Фишера для проверки гипотезы о равенстве всех средних

Пусть даны k выборок объемом n_i каждая с общим число элементов n, т.е.

\sum_{i=1}^k n_i = n.

Каждая группа (выборка) принадлежит нормально распределенной генеральной совокупности. Генеральные совокупности имеют равные, но неизвестные дисперсии.

Нулевая гипотеза. \mu_1 = \mu_2 = \dots = \mu_k .

Альтернатива. Среди групп имеются такие, которые имеют различные средние значения.

Статистика. \hat{F} = \frac{S^2_{ext}}{S^2_{int}} = \frac{\frac{1}{k-1}\sum_{i=1}^k n_i (\overline{x}_i - \overline{x})^2 }{\frac{1}{n - k}\sum_{i=1}^k \sum_{j=1}^{n_i} (x_i^j - \overline{x}_i)^2},

Здесь  \overline{x}_i = \frac{1}{n_i} \sum_{j=1}^{n_i} x_i^j, \quad \overline{x} = \frac{1}{n} \sum_{i=1}^k \sum_{j=1}^{n_i} x_i^j = \frac{1}{n} \sum_{i=1}^k n_i \overline{x}_i .

Критическая область. Если все группы принадлежат одной и той же генеральной совокупности, то внитригрупповое среднее и межгрупповое среднее должны быть примерно равны. Если их отношение больше критического значения распределения Фишера с параметрами k-1, n-k и заданного уровня значимости  \left( \hat{F} > F_{(k-1, n-k, \alpha)} \right) , то нулевая гипотеза отвергается.

Критерий Стьюдента для проверки гипотезы о равенстве соседних выборок

Нулевая гипотеза. i-е среднее значение равно (i+1)-му среднему значению.

Альтернатива. i-е среднее значение меньше (i+1)-го.

Критерий. Вычисляют значение наименьшей значимой разности (least significant difference, LSD).

В случае выборок одинакового объема LSD = t_{n-k; \alpha} \sqrt{\frac{2}{n_i}S_{int}^2} = \sqrt{\frac{2}{n_i}S_{int}^2 F_{(1, n-k, \alpha)}} .

Для неравных объемов выборок  LSD_{(i, i+1)} = t_{n-k; \alpha} \sqrt{\frac{n_i + n_{i+1}}{n_i  n_{i+1}}S_{int}^2} = \sqrt{\frac{n_i + n_{i+1}}{n_i  n_{i+1}} S_{int}^2 F_{(1, n-k, \alpha)}} .

Если разность между соседними средними значениями \Delta меньше LSD, то нет оснований отвергать нулевую гипотезу, иначе нулевую гипотезу отвергают и образуют границу между группами выборок.

Пример использования

Пример 1. [1]  n_i = 8; \quad n = 48;\quad k = 6; \quad S_{int}^2 = 10.38;

 \overline{x}_i  \Delta
 \overline{x}_1 = 26.8 -
 \overline{x}_2 = 26.3 0.5
 \overline{x}_3 = 25.2 1.1
 \overline{x}_4 = 19.8 5.4
 \overline{x}_5 = 14.3 5.5
 \overline{x}_6 = 11.8 2.5

Зафиксируем уровень значимости \alpha на уровне 0.05.

1. Используем Критерий Фишера для проверки гипотезы равенства всех средних.

Имеем  \overline{x} = 20.7; \quad S_{ext}^2 = 335.68 \quad; \hat{F} = 32.34. Квантиль распределения Фишера F_{(5, 42, 0.05)} = 2.4377. Таким образом, гипотеза о равенстве всех средних отклоняется.

2. Из таблиц имеем t_{42, 0.05} = 2.018. Вычисляем LSD: LSD =  2.018 \sqrt{\frac{2}{8} 10.38} = 3.25.

Таким образом, на данном уровне значимости можно выделить три группы: 1, 2 и 3 выборки; 4 выборка; 5 и 6 выборки.

Обсуждение

Главным достоинством метода LSD является его простота и прозрачность.

Главным недостатком метода LSD является неконтролируемый рост вероятности ошибки первого рода на шаге 2. Если же для уменьшения ошибки первого рода применить поправку Бонферрони, то очень сильно падает мощность критерия (возрастает вероятность ошибки второго рода). [1]

Таким образом, рекомендуется использовать метод LSD на первом этапе анализа данных для выявления подозрительных областей. Для более аккуратного анализа рекомендуется использовать более современные методы. [1]

Сноски


Литература

  1. Закс Л. Статистическое оценивание. — М.: Статистика, 1976. — 600 с.
  2. Лапач С. Н., Чубенко А. В., Бабич П. Н. Статистические методы в медико-биологических исследованиях с использованием Excel. — Киев: Морион, 2001. — 408 с.
  3. Scott E. Maxwell, Harold D. Delaney Designing experiments and analyzing data: a model comparison perspective. — 2003.
  4. Jason C. Hsu Multiple comparisons: theory and methods. — 1996.
  5. Gerald Keller Statistics for Management and Economics: Abbreviated Edition. — 2008.

См. также

Личные инструменты