Участник:Пасконова Ольга/Песочница
Материал из MachineLearning.
(→Перечень методов) |
(→Литература) |
||
Строка 187: | Строка 187: | ||
# ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. | # ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. | ||
# ''Афифи А., Эйзен С.'' Статистический анализ: Подход с использованием ЭВМ. | # ''Афифи А., Эйзен С.'' Статистический анализ: Подход с использованием ЭВМ. | ||
+ | # ''Холлендер М., Вульф Д.А.'' Непараметрические методы статистики. | ||
== Ссылки == | == Ссылки == |
Версия 22:29, 15 декабря 2009
Статьи о группах методов или критериев
Некоторые рекомендации
— К.В.Воронцов 02:14, 14 ноября 2009 (MSK) |
Ссылки на источники обязательны. Если Вы упоминаете другие понятия прикладной статистики (в том числе названия статистических критериев), оформляйте их как ссылки на страницы внутри Ресурса. В конце каждой статьи не забывайте про разделы ==Литература== (для книг), ==Ссылки== (для ссылок на внешние URL), ==См. также== (для ссылок на страницы внутри Ресурса).
Двухфакторная непараметрическая модель.
новая статья
- Двухфакторная непараметрическая модель: критерий Фридмана [Лапач, 203], критерий Пейджа. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
Назначение. В том случае, когда закон
распределения не является нормальным,
используется непараметрический
дисперсионный анализ Фридмана.
Нулевая гипотеза. Средние значения всех
выборок равны.
Предпосылки
• Все случайные величины взаимно
независимы.
• Данные каждой выборки распределены по
одному закону распределения. Обратите
внимание: закон распределения каждой
выборки может отличаться от закона
распределения других.
Описание метода
Исходные данные представляются в
следующем виде (табл. 4.17).
Таблица 4.17 Общий вид исходных данных для однофакторного дисперсионного анализа Номера элементов совокупностей Номера совокупностей 1 2 1 m 1 I2I...I i |...|n Х11 Х21 Xii Xml X12 X22 Xi2 Xm2 Xij X2, x„ Xm) Xin X2n Xjn Xmn Для этого в каждом столбце значения X заменяют их рангами (другими словами, вместо значений переменных ставится их номер в ряду, упорядоченном по возрастанию). Затем рассчитывается значение критерия: тп {п -н 1) Зт{п -¥ 1) > (4.19) где Ri, соответствующие значения рангов. Если расчетное значение х^ будет больше критического, взятого с заданным уровнем значимости и (п - 1) степенью свободы, гипотеза о различии между партиями принимается. При расчетах можно проверить правильность расстановки рангов и расчетов, зная, что имеет место соотношение: пт (т + 1) i:i:R,i = '^"^y ' (4-20) i=1j=1 ^ Примечание. При малых значениях тип критерий х^ дает слишком грубое приближение, и при этом возможно принятие неправильного решения. Поэтому критерий х^ применяется в том случае, когда выполняются следующие условия: т = 3 и п > 9 или m = 4 и п > 4 или т > 4,п>9 (см. [4]).
Литература
(для книг)
Ссылки
(для ссылок на внешние URL)
См. также
(для ссылок на страницы внутри Ресурса).
Дисперсионный анализ
общие определения, примеры задач и перечень методов (в виде списка ссылок)
|
Дисперсионный анализ (от латинского Dispersio – рассеивание / на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).
В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные): , а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.
Основной целью дисперсионного анализа (ANOVA) является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если вы просто сравниваете средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений).
Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.
Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок: , которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).
Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным.
Дисперсионный анализ используют, если зависимая переменная измеряется в шкале отношений, интервалов или порядка, а влияющие переменные имеют нечисловую природу (шкала наименований).
Примеры задач
В задачах, которые решаются дисперсионным анализом, присутствует отклик числовой природы, на который воздействует несколько переменных, имеющих номинальную природу. Например, несколько видов рационов откорма скота или два способа их содержания и т.п.
Пример 1: В течение недели в трех разных местах работало несколько аптечных киосков. В дальнейшем мы можем оставить только один. Необходимо определить, существует ли статистически значимое отличие между объемами реализации препаратов в киосках. Если да, мы выберем киоск с наибольшим среднесуточным объемом реализации. Если же разница объема реализации окажется статистически незначимой, то основанием для выбора киоска должны быть другие показатели.
Пример 2: Cравнение контрастов групповых средних. Семь политических пристрастий упорядочены от крайне либеральные до крайне консервативные, и линейный контраст используется для проверки того, есть ли отличная от нуля тенденция к возрастанию средних значений по группам - т. е. есть ли значимое линейное увеличение среднего возраста при рассмотрении групп, упорядоченных в направлении от либеральных до консервативных.
Пример 3: Двухфакторный дисперсионный анализ. На количество продаж товара, помимо размеров магазина, часто влияет расположение полок с товаром. Данный пример содержит показатели недельных продаж, характеризуемые четырьмя типами расположения полок и тремя размерами магазинов. Результаты анализа показывают, что оба фактора - расположение полок с товаром и размер магазина -влияют на количество продаж, однако их взаимодействие значимым не является.
Пример 4: Одномерный ANOVA: Рандомизированный полноблочный план с двумя обработками. Исследуется влияние на припек хлеба всех возможных комбинаций трех жиров и трех рыхлителей теста. Четыре образца муки, взятые из четырех разных источников, служили в качестве блоковых факторов.Необходимо выявить значимость взаимодействия жир-рыхлитель. После этого определить различные возможности выбора контрастов, позволяющих выяснить, какие именно комбинации уровней факторов различаются.
Пример 5: Модель иерархического (гнездового) плана с смешанными эффектами. Изучается влияние четырех случайно выбранных головок, вмонтированных в станок, на деформацию производимых стеклянных держателей катодов. (Головки вмонтированы в станок, так что одна и та же головка не может использоваться на разных станках). Эффект головки обрабатывается как случайный фактор. Статистики ANOVA показывают, что между станками нет значимых различий, но есть признаки того, что головки могут различаться. Различие между всеми станками не значимо, но для двух из них различие между типами головок значимо.
Пример 6: Одномерный анализ повторных измерений с использованием плана расщепленных делянок. Этот эксперимент проводился для определения влияния индивидуального рейтинга тревожности на сдачу экзамена в четырех последовательных попытках. Данные организованы так, чтобы их можно было рассматривать как группы подмножеств всего множества данных ("всей делянки"). Эффект тревожности оказался незначимым, а эффект попытки - значим.
Перечень методов
- Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач; факторы, влияющие на объёмы продаж.
- Однофакторная параметрическая модель: метод Шеффе.
- Однофакторная непараметрическая модель: критерий Краскела-Уоллиса, критерий Джонкхиера.
- Общий случай модели с постоянными факторами, теорема Кокрена [Афифи А., Эйзен С., 234].
- Двухфакторная непараметрическая модель: критерий Фридмана [Лапач, 203], критерий Пейджа. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
- Двухфакторная непараметрическая модель для неполных данных
- Двухфакторный нормальный анализ.
- Ковариационный анализ.
История
Откуда произошло название дисперсионный анализ? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ. Первоначально дисперсионный анализ был разработан для обработки данных, полученных в ходе специально поставленных экспериментов, и считался единственным методом, корректно исследующим причинные связи. Метод применялся для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.
Литература
- Шеффе Г. Дисперсионный анализ. — М., 1980.
- Аренс Х. Лёйтер Ю. Многомерный дисперсионный анализ.
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
- Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
- Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
- Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ.
- Холлендер М., Вульф Д.А. Непараметрические методы статистики.
Ссылки
- Дисперсионный анализ — Электронный учебник StatSoft.
- Дисперсионный анализ - Аналитическая статистика.
- Многофакторный дисперсионный анализ - Электронная библиотека.
См. также
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
- Статистический анализ данных (курс лекций, К.В.Воронцов)
- Регрессионный анализ
- Ковариационный анализ