Участник:Anton/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Содержимое страницы заменено на «Критерии однородности»)
Строка 1: Строка 1:
-
'''Метод LSD = Метод группирования выборок с наименее значимой разницей = Least Significant Difference method'''.
+
Критерии однородности
-
 
+
-
'''Метод LSD''' позволяет проверять равенство [[среднее значение| средних значений]] нескольких [[выборка| выборок]] и выделять группы выборок с одинаковыми средними значениями. Метод изобретен Фишером в 1935 году <ref>''S. E. Maxwell, H. D. Delaney''. Designing experiments and analyzing data: a model comparison perspective. 2003. P. 229.</ref> и является первым методом множественных сравнений. Также известен как безопасный t-тест (protected t-test method).
+
-
 
+
-
== Описание метода ==
+
-
'''Обозначения.''' Пусть имеется <tex>k</tex> выборок <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> объемом <tex>n_i</tex> (<tex>i=1,...,k </tex>) каждая. Через <tex>\mu_i</tex> обозначим математические ожидания распределений, из которых получены выборки.
+
-
+
-
'''Предположим''', что
+
-
# Выборки <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> являются [[Нормальное распределение| нормально-распределенными]].
+
-
# Выборки <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> обладают одинаковыми дисперсиями.
+
-
 
+
-
Метод состоит из двух этапов:
+
-
#Сначала при помощи [[Критерий Фишера|критерия Фишера]] проверяется гипотеза о равенстве всех <tex>\mu_i</tex>. Если гипотеза принимается, то метод останавливается, иначе переход к шагу 2.
+
-
#Выборки упорядочиваются до возрастанию выборочных средних. После этого поэтапно проверяются гипотезы равенства средних соседних выборок помощи [[Критерий Стьюдента|критерия Стьюдента]]. В качестве оценки дисперсии используется внутрегрупповое среднее. Если гипотеза принимается со соответствующие выборки объединяются в одну группу.
+
-
 
+
-
Если выполнять только шаг 2, то получим ''небезопасный метод LSD (unprotected LSD method)''. Под ''небезопасностью'' понимается неконтролируемое увеличение вероятности ошибок 1-го рода при многократном применении
+
-
 
+
-
=== Критерий Фишера для проверки гипотезы о равенстве всех средних ===
+
-
Пусть даны <tex>k</tex> выборок объемом <tex>n_i</tex> каждая с общим число элементов <tex>n</tex>, т.е.
+
-
 
+
-
<tex>\sum_{i=1}^k n_i = n </tex>
+
-
 
+
-
Каждая группа (выборка) принадлежит нормально распределенной генеральной совокупности. Генеральные совокупности имеют равные но неизвестные дисперсии.
+
-
 
+
-
'''Нулевая гипотеза.''' <tex>\mu_1 = \mu_2 = \dots = \mu_k </tex>.
+
-
 
+
-
'''Альтернатива.''' Среди групп имеются такие, которые имеют различные средние значения.
+
-
 
+
-
'''Статистика.''' <tex>\hat{F} = \frac{S^2_{ext}}{S^2_{int}} = \frac{\frac{1}{k-1}\sum_{i=1}^k n_i (\overline{x}_i - \overline{x})^2 }{\frac{1}{n - k}\sum_{i=1}^k \sum_{j=1}^{n_i} (x_i^j - \overline{x}_i)^2},</tex>
+
-
 
+
-
Здесь <tex> \overline{x}_i = \frac{1}{n_i} \sum_{j=1}^{n_i} x_i^j, \quad \overline{x} = \frac{1}{n} \sum_{i=1}^k \sum_{j=1}^{n_i} x_i^j = \frac{1}{n} \sum_{i=1}^k n_i \overline{x}_i . </tex>
+
-
 
+
-
'''Критическая область.''' Если все группы принадлежат одной и той же генеральной совокупности, то внитригрупповое среднее и межгрупповое среднее должны быть примерно равны. Если их отношение больше критического значения распределения Фишера с параметрами k-1, n-k и заданного уровня значимости <tex> \left( \hat{F} > F_{(k-1, n-k, \alpha)} \right) </tex>, то нулевая гипотеза отвергается.
+
-
 
+
-
=== Критерий Стьюдента для проверки гипотезы о равенстве соседних выборок ===
+
-
'''Нулевая гипотеза.''' i-е среднее значение равно (i+1)-му среднему значению.
+
-
 
+
-
'''Альтернатива.''' i-е среднее значение меньше (i+1)-го.
+
-
 
+
-
'''Критерий.''' Вычисляют значение наименьшей значимой разности (least significant difference, LSD).
+
-
 
+
-
В случае выборок одинакового объема <tex>LSD = t_{n-k; \alpha} \sqrt{\frac{2}{n_i}S_{int}^2} = \sqrt{\frac{2}{n_i}S_{int}^2 F_{(1, n-k, \alpha)}} </tex>.
+
-
 
+
-
Для неравных объемов выборок <tex> LSD_{(i, i+1)} = t_{n-k; \alpha} \sqrt{\frac{n_i + n_{i+1}}{n_i n_{i+1}}S_{int}^2} = \sqrt{\frac{n_i + n_{i+1}}{n_i n_{i+1}} S_{int}^2 F_{(1, n-k, \alpha)}} </tex>.
+
-
 
+
-
Если разность между соседними средними значениями <tex>\Delta</tex> меньше LSD, то нет оснований отвергать нулевую гипотезу, иначе нулевую гипотезу отвергают и образуют границу между группами выборок.
+
-
 
+
-
== Пример использования ==
+
-
 
+
-
'''Пример 1.''' <ref>''Закс Л.'' Статистическое оценивание. М.: Статистика. 1976. Стр. 465. </ref>
+
-
<tex> n_i = 8; \quad n = 48;\quad k = 6; \quad S_{int}^2 = 10.38; </tex>
+
-
{|class="standard"
+
-
! <tex> \overline{x}_i </tex>
+
-
! <tex> \Delta </tex>
+
-
|-
+
-
| <tex> \overline{x}_1 = 26.8 </tex>
+
-
| -
+
-
|-
+
-
| <tex> \overline{x}_2 = 26.3 </tex>
+
-
| 0.5
+
-
|-
+
-
| <tex> \overline{x}_2 = 25.2 </tex>
+
-
| 1.1
+
-
|-
+
-
| <tex> \overline{x}_2 = 19.8 </tex>
+
-
| 5.4
+
-
|-
+
-
| <tex> \overline{x}_2 = 14.3 </tex>
+
-
| 5.5
+
-
|-
+
-
| <tex> \overline{x}_2 = 11.8 </tex>
+
-
| 2.5
+
-
|}
+
-
 
+
-
Зафиксируем уровень значимости <tex>\alpha </tex> на уровне 0.05.
+
-
 
+
-
1. Используем Критерий Фишера для проверки гипотезы равенства всех средних.
+
-
 
+
-
Имеем <tex> \overline{x} = 20.7; \quad S_{ext}^2 = 335.68 \quad; \hat{F} = 32.34. </tex> Квантиль распределения Фишера <tex>F_{(5, 42, 0.05)} = 2.4377</tex>. Таким образом, гипотеза о равенстве всех средних отклоняется.
+
-
 
+
-
2. Из таблиц имеем <tex>t_{42, 0.05} = 2.018.</tex>
+
-
Вычисляем LSD: <tex>LSD = 2.018 \sqrt{\frac{2}{8} 10.38} = 3.25</tex>.
+
-
 
+
-
Таким образом, на данном уровне значимости можно выделить три группы: 1, 2 и 3 выборки; 4 выборка; 5 и 6 выборки.
+
-
 
+
-
== Обсуждение ==
+
-
Главным достоинством метода LSD является его простота и прозрачность.
+
-
 
+
-
Главным недостатком метода LSD является неконтролируемый рост вероятности ошибки первого рода на шаге 2.
+
-
Если же для уменьшения ошибки первого рода применить поправку Бонферрони, то очень сильно падает мощность критерия (возрастает вероятность ошибки второго рода). <ref>''Gerald Keller.'' Statistics for Management and Economics: Abbreviated Edition. 2008. P. 537. </ref>
+
-
 
+
-
Таким образом, рекомендуется использовать метод LSD на первом этапе анализа данных для выявления подозрительных областей. Для более аккуратного анализа рекомендуется использовать более современные методы. <ref>''Gerald Keller.'' Statistics for Management and Economics: Abbreviated Edition. 2008. P. 537. </ref>
+
-
 
+
-
== Сноски ==
+
-
<references/>
+
-
 
+
-
== Литература ==
+
-
# {{книга
+
-
|автор = Закс Л.
+
-
|заглавие = Статистическое оценивание
+
-
|издательство = М.: Статистика
+
-
|год = 1976
+
-
|страниц = 600
+
-
}}
+
-
# {{книга
+
-
|автор = Лапач С. Н., Чубенко А. В., Бабич П. Н.
+
-
|заглавие = Статистические методы в медико-биологических исследованиях с использованием Excel
+
-
|издательство = Киев: Морион
+
-
|год = 2001
+
-
|страниц = 408
+
-
}}
+
-
# {{книга
+
-
|автор = Scott E. Maxwell, Harold D. Delaney
+
-
|заглавие = Designing experiments and analyzing data: a model comparison perspective
+
-
|год = 2003
+
-
}}
+
-
# {{книга
+
-
|автор = Jason C. Hsu
+
-
|заглавие = Multiple comparisons: theory and methods
+
-
|год = 1996
+
-
}}
+
-
# {{книга
+
-
|автор = Gerald Keller
+
-
|заглавие = Statistics for Management and Economics: Abbreviated Edition
+
-
|год = 2008
+
-
}}
+
-
 
+
-
== См. также ==
+
-
* [[Метод множественных сравнений Шеффе]]
+
-
* [[Критерий Стьюдента]]
+
-
* [[Критерий Фишера]]
+
-
* [[Проверка статистических гипотез]]
+
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)]]
+
-
 
+
-
[[Категория: Прикладная статистика]]
+
-
[[Категория: Статистические тесты]]
+
-
 
+
-
{{Задание|Anton|Vokov|8 января 2009}}
+

Версия 10:58, 6 января 2010

Критерии однородности

Личные инструменты