|
|
Строка 1: |
Строка 1: |
- | '''Метод LSD = Метод группирования выборок с наименее значимой разницей = Least Significant Difference method'''.
| + | Критерии однородности |
- | | + | |
- | '''Метод LSD''' позволяет проверять равенство [[среднее значение| средних значений]] нескольких [[выборка| выборок]] и выделять группы выборок с одинаковыми средними значениями. Метод изобретен Фишером в 1935 году <ref>''S. E. Maxwell, H. D. Delaney''. Designing experiments and analyzing data: a model comparison perspective. 2003. P. 229.</ref> и является первым методом множественных сравнений. Также известен как безопасный t-тест (protected t-test method).
| + | |
- | | + | |
- | == Описание метода ==
| + | |
- | '''Обозначения.''' Пусть имеется <tex>k</tex> выборок <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> объемом <tex>n_i</tex> (<tex>i=1,...,k </tex>) каждая. Через <tex>\mu_i</tex> обозначим математические ожидания распределений, из которых получены выборки.
| + | |
- |
| + | |
- | '''Предположим''', что
| + | |
- | # Выборки <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> являются [[Нормальное распределение| нормально-распределенными]].
| + | |
- | # Выборки <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> обладают одинаковыми дисперсиями.
| + | |
- | | + | |
- | Метод состоит из двух этапов:
| + | |
- | #Сначала при помощи [[Критерий Фишера|критерия Фишера]] проверяется гипотеза о равенстве всех <tex>\mu_i</tex>. Если гипотеза принимается, то метод останавливается, иначе переход к шагу 2.
| + | |
- | #Выборки упорядочиваются до возрастанию выборочных средних. После этого поэтапно проверяются гипотезы равенства средних соседних выборок помощи [[Критерий Стьюдента|критерия Стьюдента]]. В качестве оценки дисперсии используется внутрегрупповое среднее. Если гипотеза принимается со соответствующие выборки объединяются в одну группу.
| + | |
- | | + | |
- | Если выполнять только шаг 2, то получим ''небезопасный метод LSD (unprotected LSD method)''. Под ''небезопасностью'' понимается неконтролируемое увеличение вероятности ошибок 1-го рода при многократном применении
| + | |
- | | + | |
- | === Критерий Фишера для проверки гипотезы о равенстве всех средних ===
| + | |
- | Пусть даны <tex>k</tex> выборок объемом <tex>n_i</tex> каждая с общим число элементов <tex>n</tex>, т.е.
| + | |
- | | + | |
- | <tex>\sum_{i=1}^k n_i = n </tex>
| + | |
- | | + | |
- | Каждая группа (выборка) принадлежит нормально распределенной генеральной совокупности. Генеральные совокупности имеют равные но неизвестные дисперсии.
| + | |
- | | + | |
- | '''Нулевая гипотеза.''' <tex>\mu_1 = \mu_2 = \dots = \mu_k </tex>.
| + | |
- | | + | |
- | '''Альтернатива.''' Среди групп имеются такие, которые имеют различные средние значения.
| + | |
- | | + | |
- | '''Статистика.''' <tex>\hat{F} = \frac{S^2_{ext}}{S^2_{int}} = \frac{\frac{1}{k-1}\sum_{i=1}^k n_i (\overline{x}_i - \overline{x})^2 }{\frac{1}{n - k}\sum_{i=1}^k \sum_{j=1}^{n_i} (x_i^j - \overline{x}_i)^2},</tex>
| + | |
- | | + | |
- | Здесь <tex> \overline{x}_i = \frac{1}{n_i} \sum_{j=1}^{n_i} x_i^j, \quad \overline{x} = \frac{1}{n} \sum_{i=1}^k \sum_{j=1}^{n_i} x_i^j = \frac{1}{n} \sum_{i=1}^k n_i \overline{x}_i . </tex>
| + | |
- | | + | |
- | '''Критическая область.''' Если все группы принадлежат одной и той же генеральной совокупности, то внитригрупповое среднее и межгрупповое среднее должны быть примерно равны. Если их отношение больше критического значения распределения Фишера с параметрами k-1, n-k и заданного уровня значимости <tex> \left( \hat{F} > F_{(k-1, n-k, \alpha)} \right) </tex>, то нулевая гипотеза отвергается.
| + | |
- | | + | |
- | === Критерий Стьюдента для проверки гипотезы о равенстве соседних выборок ===
| + | |
- | '''Нулевая гипотеза.''' i-е среднее значение равно (i+1)-му среднему значению.
| + | |
- | | + | |
- | '''Альтернатива.''' i-е среднее значение меньше (i+1)-го.
| + | |
- | | + | |
- | '''Критерий.''' Вычисляют значение наименьшей значимой разности (least significant difference, LSD).
| + | |
- | | + | |
- | В случае выборок одинакового объема <tex>LSD = t_{n-k; \alpha} \sqrt{\frac{2}{n_i}S_{int}^2} = \sqrt{\frac{2}{n_i}S_{int}^2 F_{(1, n-k, \alpha)}} </tex>.
| + | |
- | | + | |
- | Для неравных объемов выборок <tex> LSD_{(i, i+1)} = t_{n-k; \alpha} \sqrt{\frac{n_i + n_{i+1}}{n_i n_{i+1}}S_{int}^2} = \sqrt{\frac{n_i + n_{i+1}}{n_i n_{i+1}} S_{int}^2 F_{(1, n-k, \alpha)}} </tex>.
| + | |
- | | + | |
- | Если разность между соседними средними значениями <tex>\Delta</tex> меньше LSD, то нет оснований отвергать нулевую гипотезу, иначе нулевую гипотезу отвергают и образуют границу между группами выборок.
| + | |
- | | + | |
- | == Пример использования ==
| + | |
- | | + | |
- | '''Пример 1.''' <ref>''Закс Л.'' Статистическое оценивание. М.: Статистика. 1976. Стр. 465. </ref>
| + | |
- | <tex> n_i = 8; \quad n = 48;\quad k = 6; \quad S_{int}^2 = 10.38; </tex>
| + | |
- | {|class="standard"
| + | |
- | ! <tex> \overline{x}_i </tex>
| + | |
- | ! <tex> \Delta </tex>
| + | |
- | |-
| + | |
- | | <tex> \overline{x}_1 = 26.8 </tex>
| + | |
- | | -
| + | |
- | |-
| + | |
- | | <tex> \overline{x}_2 = 26.3 </tex>
| + | |
- | | 0.5
| + | |
- | |-
| + | |
- | | <tex> \overline{x}_2 = 25.2 </tex>
| + | |
- | | 1.1
| + | |
- | |-
| + | |
- | | <tex> \overline{x}_2 = 19.8 </tex>
| + | |
- | | 5.4
| + | |
- | |-
| + | |
- | | <tex> \overline{x}_2 = 14.3 </tex>
| + | |
- | | 5.5
| + | |
- | |-
| + | |
- | | <tex> \overline{x}_2 = 11.8 </tex>
| + | |
- | | 2.5
| + | |
- | |}
| + | |
- | | + | |
- | Зафиксируем уровень значимости <tex>\alpha </tex> на уровне 0.05.
| + | |
- | | + | |
- | 1. Используем Критерий Фишера для проверки гипотезы равенства всех средних.
| + | |
- | | + | |
- | Имеем <tex> \overline{x} = 20.7; \quad S_{ext}^2 = 335.68 \quad; \hat{F} = 32.34. </tex> Квантиль распределения Фишера <tex>F_{(5, 42, 0.05)} = 2.4377</tex>. Таким образом, гипотеза о равенстве всех средних отклоняется.
| + | |
- | | + | |
- | 2. Из таблиц имеем <tex>t_{42, 0.05} = 2.018.</tex>
| + | |
- | Вычисляем LSD: <tex>LSD = 2.018 \sqrt{\frac{2}{8} 10.38} = 3.25</tex>.
| + | |
- | | + | |
- | Таким образом, на данном уровне значимости можно выделить три группы: 1, 2 и 3 выборки; 4 выборка; 5 и 6 выборки.
| + | |
- | | + | |
- | == Обсуждение ==
| + | |
- | Главным достоинством метода LSD является его простота и прозрачность.
| + | |
- | | + | |
- | Главным недостатком метода LSD является неконтролируемый рост вероятности ошибки первого рода на шаге 2.
| + | |
- | Если же для уменьшения ошибки первого рода применить поправку Бонферрони, то очень сильно падает мощность критерия (возрастает вероятность ошибки второго рода). <ref>''Gerald Keller.'' Statistics for Management and Economics: Abbreviated Edition. 2008. P. 537. </ref>
| + | |
- | | + | |
- | Таким образом, рекомендуется использовать метод LSD на первом этапе анализа данных для выявления подозрительных областей. Для более аккуратного анализа рекомендуется использовать более современные методы. <ref>''Gerald Keller.'' Statistics for Management and Economics: Abbreviated Edition. 2008. P. 537. </ref>
| + | |
- | | + | |
- | == Сноски ==
| + | |
- | <references/>
| + | |
- | | + | |
- | == Литература ==
| + | |
- | # {{книга
| + | |
- | |автор = Закс Л.
| + | |
- | |заглавие = Статистическое оценивание
| + | |
- | |издательство = М.: Статистика
| + | |
- | |год = 1976
| + | |
- | |страниц = 600
| + | |
- | }}
| + | |
- | # {{книга
| + | |
- | |автор = Лапач С. Н., Чубенко А. В., Бабич П. Н.
| + | |
- | |заглавие = Статистические методы в медико-биологических исследованиях с использованием Excel
| + | |
- | |издательство = Киев: Морион
| + | |
- | |год = 2001
| + | |
- | |страниц = 408
| + | |
- | }}
| + | |
- | # {{книга
| + | |
- | |автор = Scott E. Maxwell, Harold D. Delaney
| + | |
- | |заглавие = Designing experiments and analyzing data: a model comparison perspective
| + | |
- | |год = 2003
| + | |
- | }}
| + | |
- | # {{книга
| + | |
- | |автор = Jason C. Hsu
| + | |
- | |заглавие = Multiple comparisons: theory and methods
| + | |
- | |год = 1996
| + | |
- | }}
| + | |
- | # {{книга
| + | |
- | |автор = Gerald Keller
| + | |
- | |заглавие = Statistics for Management and Economics: Abbreviated Edition
| + | |
- | |год = 2008
| + | |
- | }}
| + | |
- | | + | |
- | == См. также ==
| + | |
- | * [[Метод множественных сравнений Шеффе]]
| + | |
- | * [[Критерий Стьюдента]]
| + | |
- | * [[Критерий Фишера]]
| + | |
- | * [[Проверка статистических гипотез]]
| + | |
- | * [[Статистический анализ данных (курс лекций, К.В.Воронцов)]]
| + | |
- | | + | |
- | [[Категория: Прикладная статистика]]
| + | |
- | [[Категория: Статистические тесты]]
| + | |
- | | + | |
- | {{Задание|Anton|Vokov|8 января 2009}}
| + | |