Участник:Пасконова Ольга/Песочница
Материал из MachineLearning.
(→Цель дисперсионного анализа) |
(→Модель дисперсионного анализа) |
||
Строка 133: | Строка 133: | ||
- | + | ||
==Примеры задач== | ==Примеры задач== |
Версия 21:23, 15 декабря 2009
Статьи о группах методов или критериев
Некоторые рекомендации
— К.В.Воронцов 02:14, 14 ноября 2009 (MSK) |
Ссылки на источники обязательны. Если Вы упоминаете другие понятия прикладной статистики (в том числе названия статистических критериев), оформляйте их как ссылки на страницы внутри Ресурса. В конце каждой статьи не забывайте про разделы ==Литература== (для книг), ==Ссылки== (для ссылок на внешние URL), ==См. также== (для ссылок на страницы внутри Ресурса).
Двухфакторная непараметрическая модель.
новая статья
- Двухфакторная непараметрическая модель: критерий Фридмана [Лапач, 203], критерий Пейджа. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
Назначение. В том случае, когда закон
распределения не является нормальным,
используется непараметрический
дисперсионный анализ Фридмана.
Нулевая гипотеза. Средние значения всех
выборок равны.
Предпосылки
• Все случайные величины взаимно
независимы.
• Данные каждой выборки распределены по
одному закону распределения. Обратите
внимание: закон распределения каждой
выборки может отличаться от закона
распределения других.
Описание метода
Исходные данные представляются в
следующем виде (табл. 4.17).
Таблица 4.17 Общий вид исходных данных для однофакторного дисперсионного анализа Номера элементов совокупностей Номера совокупностей 1 2 1 m 1 I2I...I i |...|n Х11 Х21 Xii Xml X12 X22 Xi2 Xm2 Xij X2, x„ Xm) Xin X2n Xjn Xmn Для этого в каждом столбце значения X заменяют их рангами (другими словами, вместо значений переменных ставится их номер в ряду, упорядоченном по возрастанию). Затем рассчитывается значение критерия: тп {п -н 1) Зт{п -¥ 1) > (4.19) где Ri, соответствующие значения рангов. Если расчетное значение х^ будет больше критического, взятого с заданным уровнем значимости и (п - 1) степенью свободы, гипотеза о различии между партиями принимается. При расчетах можно проверить правильность расстановки рангов и расчетов, зная, что имеет место соотношение: пт (т + 1) i:i:R,i = '^"^y ' (4-20) i=1j=1 ^ Примечание. При малых значениях тип критерий х^ дает слишком грубое приближение, и при этом возможно принятие неправильного решения. Поэтому критерий х^ применяется в том случае, когда выполняются следующие условия: т = 3 и п > 9 или m = 4 и п > 4 или т > 4,п>9 (см. [4]).
Литература
(для книг)
Ссылки
(для ссылок на внешние URL)
См. также
(для ссылок на страницы внутри Ресурса).
Дисперсионный анализ
общие определения, примеры задач и перечень методов (в виде списка ссылок)
|
Дисперсионный анализ (от латинского Dispersio – рассеивание / на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).
В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные): , а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.
Основной целью дисперсионного анализа (ANOVA) является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если вы просто сравниваете средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений).
Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.
Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок: , которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).
Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным.
Дисперсионный анализ используют, если зависимая переменная измеряется в шкале отношений, интервалов или порядка, а влияющие переменные имеют нечисловую природу (шкала наименований).
Примеры задач
В задачах, которые решаются дисперсионным анализом, присутствует отклик числовой природы, на который воздействует несколько переменных, имеюш;их номинальную природу. Например, несколько видов рационов откорма скота или два способа их содержания и т.п.
Например, в течение недели в трех разных местах работало несколько аптечных киосков. В дальнейшем мы можем оставить только один. Необходимо определить, существует ли статистически значимое отличие между объемами реализации препаратов в киосках. Если да, мы выберем киоск с наибольшим среднесуточным объемом реализации. Если же разница объема реализации окажется статистически незначимой, то основанием для выбора киоска должны быть другие показатели. Исходные данные для анализа приведены в табл. 7.2 (подробно метод описан в 4.3.1).
1) Составить m = 5 выборок объемом n = 6+N mod 4 + N mod 3 (N − номер студента по списку группы) из нормаль- ных генеральных совокупностей X1,. . . , Xm с математиче- скими ожиданиями μi = 9+0.1n + 0.01i(−1)i, i = 1, m, и средними квадратическими отклонениями σ = 3. 2) С помощью теста Кочрана при уровне значимости α = 0.05 проверить гипотезу о том, что генеральные совокупности X1,. . . , Xm имеют равные дисперсии, т.е. σ21 =. . .= σ2 m. 3) С помощью теста Фишера при уровне значимости α = 0.05 проверить гипотезу о том, что генеральные совокупности X1,. . . , Xm имеют равные математические ожидания, т.е. μ1 =. . .= μm.
Пример 1: Регрессия с двумя независимыми переменными. В этом примере рассматривается влияние температуры окружающей среды и толщины изоляции на расход нефти в отопительных системах индивидуальных домов. Так как оба предиктора (температура и толщина изоляции) измеряются в непрерывной шкале, они вводятся как ковариаты. Модель, в которой все предикторы вводятся как ковариаты, является регрессионной моделью. Для проверки предположений используются графики остатков.
Пример 2: Двухфакторный дисперсионный анализ. На количество продаж товара, помимо размеров магазина, часто влияет расположение полок с товаром. Данный пример содержит показатели недельных продаж, характеризуемые четырьмя типами расположения полок и тремя размерами магазинов. Результаты анализа показывают, что оба фактора - расположение полок с товаром и размер магазина -влияют на количество продаж, однако их взаимодействие значимым не является.
Пример 3: Одномерный ANOVA: Рандомизированный полноблочный план с двумя обработками. Исследуется влияние на припек хлеба всех возможных комбинаций трех жиров и трех рыхлителей теста. Четыре образца муки, взятые из четырех разных источников, служили в качестве блоковых факторов. С помощью метода вычисления сумм квадратов типа III, задаваемого по умолчанию, выявлена значимость взаимодействия жир-рыхлитель. После этого обсуждаются различные возможности выбора контрастов, позволяющих выяснить, какие именно комбинации уровней факторов различаются.
Пример 4: Одномерный ANOVA: Рандомизированный полноблочный план с пустыми ячейками. Снова рассматривается тот же пример с выпечкой хлеба, но теперь некоторые комбинации жиров и рыхлителей отсутствуют. Таким образом, получаем модель с пустыми ячейками, что позволяет продемонстрировать отличие структур данных, приводящее к использованию вычисления сумм квадратов типа III.
Пример 5: Модель ковариационного анализа и иерархия: диалоговое задание эффектов. Исследуется влияние трех видов удобрений на высоту кустов зрелых помидоров. Так как начальная высота каждого куста влияет на конечную, она включена в модель в качестве ковариаты. Для изучения иерархической (гнездовой) модели используется возможность диалогового задания эффекта, вместо использования языка команд.
Пример 6: Модель иерархического (гнездового) плана с смешанными эффектами. Изучается влияние четырех случайно выбранных головок, вмонтированных в станок, на деформацию производимых стеклянных держателей катодов. (Головки вмонтированы в станок, так что одна и та же головка не может использоваться на разных станках). Эффект головки обрабатывается как случайный фактор. Статистики ANOVA показывают, что между станками нет значимых различий, но есть признаки того, что головки могут различаться. Различие между всеми станками не значимо, но для двух из них различие между типами головок значимо.
Пример 7: Одномерный анализ повторных измерений с использованием плана расщепленных делянок. Этот эксперимент проводился для определения влияния индивидуального рейтинга тревожности на сдачу экзамена в четырех последовательных попытках. Данные организованы так, чтобы их можно было рассматривать как группы подмножеств всего множества данных ("всей делянки"). Эффект тревожности оказался незначимым, а эффект попытки - значим.
Перечень методов
Разбиение суммы квадратов Многофакторный дисперсионный анализ Эффекты взаимодействия Также смотрите разделы. Сложные планы Ковариационный анализ (ANCOVA) Многомерные планы: многомерный дисперсионный и ковариационный анализ Анализ контрастов и апостериорные критерии Предположения и эффекты их нарушения
См. также Методы дисперсионного анализа, Компоненты дисперсии и смешанная модель ANOVA/ANCOVA, а также Планироване эксперимента.
Дисперсионный анализ (ANOVA) [Лапач, 193, Кулаичев, 170]. Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач; факторы, влияющие на объёмы продаж. Однофакторная параметрическая модель: метод Шефе. Однофакторная непараметрическая модель: критерии Краскела-Уоллиса, Джонкхиера. Общий случай модели с постоянными факторами, теорема Кокрена. Двухфакторная непараметрическая модель: критерии Фридмана [Лапач, 203], Пейджа. Примеры: сравнение эффективности методов производства, агротехнических приёмов. Двухфакторный нормальный анализ. Задача ковариационного анализа.
Дисперсионный анализ (ANOVA)
[Лапач, 193, Кулаичев, 170].
- Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач; факторы, влияющие на объёмы продаж.
- Однофакторная параметрическая модель: метод Шеффе.
- Однофакторная непараметрическая модель: критерий Краскела-Уоллиса, критерий Джонкхиера.
- Общий случай модели с постоянными факторами, теорема Кокрена.
- Двухфакторная непараметрическая модель: критерий Фридмана [Лапач, 203], критерий Пейджа. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
- Двухфакторный нормальный анализ.
- Ковариационный анализ (постановка задачи).
История
Откуда произошло название Дисперсионный анализ? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ. Первоначально дисперсионный анализ был разработан для обработки данных, полученных в ходе специально поставленных экспериментов, и считался единственным методом, корректно исследующим причинные связи. Метод применялся для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.
Литература
(для книг)
- Шеффе Г. Дисперсионный анализ. — М., 1980.
- Аренс Х., Лёйтер Ю. Многомерный дисперсионный анализ
Ссылки
(для ссылок на внешние URL)
Ссылки
- Дисперсионный анализ — Электронный учебник StatSoft.
- Дисперсионный анализ - Аналитическая статистика.
- Student's t-test (Wikipedia).
- t-критерий Стьюдента (Википедия).
- Распределение Стьюдента (Википедия).
- Квантили распределения Стьюдента (Википедия).
См. также
(для ссылок на страницы внутри Ресурса).
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
- Статистика (функция выборки)