Участник:Пасконова Ольга/Песочница

Материал из MachineLearning.

< Участник:Пасконова Ольга(Различия между версиями)
Перейти к: навигация, поиск
(Примеры задач)
Текущая версия (11:10, 16 декабря 2009) (править) (отменить)
(История)
 
(35 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
====Статьи о группах методов или критериев====
+
== Двухфакторная непараметрическая модель ==
-
{{well|'''Некоторые рекомендации'''
+
-
# Эти статьи не содержат описаний методов, но в них должны перечисляться ссылки на большое число методов или критериев, объединённых под данным общим названием.
+
* [[Двухфакторная непараметрическая модель]]: [[критерий Фридмана]] [Лапач, 203], [[критерий Пейджа]]. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
-
# Должно даваться общее определение из классических источников (например, из энциклопедии теории вероятностей и математической статистики).
+
-
# Желательны примеры задач.
+
-
# Желательно указывать, чем отличаются различные критерии и методы в данной группе друг от друга, какие есть рекомендации по выбору одного из этих методов.
+
-
# Любые сообщаемые факты должны сопровождаться ссылками на источник.
+
-
# Помните, что предоставляемая информация должна быть полезна специалистам при решении практических задач.
+
-
# Собрать грамотную подборку ссылок (вместо тупого копирования их содержимого) с вашими лаконичными комментариями — это уже очень полезно!
+
-
—&nbsp;''[[Участник:Vokov|К.В.Воронцов]] 02:14, 14 ноября 2009 (MSK)''
+
'''Данные.'''
-
}}
+
 +
В каждом из <tex>n</tex> блоков содержится по одному наблюдению <tex>x_{ij}</tex>
 +
на каждуб из <tex>k</tex> обработок. Будем считать наблюдения реализацией случайных велечин
 +
<tex>X_{ij}</tex> в модели
-
Ссылки на источники обязательны. Если Вы упоминаете другие понятия прикладной статистики (в том числе названия статистических критериев), оформляйте их как ссылки на страницы внутри Ресурса. В конце каждой статьи не забывайте про разделы ==Литература== (для книг), ==Ссылки== (для ссылок на внешние URL), ==См. также== (для ссылок на страницы внутри Ресурса).
+
<tex>X_{ij} = \mu + \alpha_i + \beta_j + \epsilon_{ij}</tex>,
 +
где <tex>1 \le i \le n, 1 \le j \le k, </tex>.
-
==Двухфакторная непараметрическая модель.==
+
Здесь <tex>\mu</tex> - неизвестное общее среднее,
-
новая статья
+
<tex>\alpha_i</tex> - эффект блока <tex>i</tex> (неизвестный мешающий параметр),
 +
<tex>\beta_j</tex> - эффект блока <tex>j</tex> (интересующий нас параметр),
 +
<tex>\epsilon_{ij}</tex> - случайная ошибка
 +
<tex>j</tex>
-
* [[Двухфакторная непараметрическая модель]]: [[критерий Фридмана]] [Лапач, 203], [[критерий Пейджа]]. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
+
'''Допущения.'''
 +
'''1.''' Все ошибки <tex>\epsilon_{ij}</tex> независимы.
-
Назначение. В том случае, когда закон
+
'''2.''' Все <tex>\epsilon_{ij}</tex> имеют одинаковое непрерывное (неизвестное) распределение.
-
распределения не является нормальным,
+
-
используется непараметрический
+
-
дисперсионный анализ Фридмана.
+
-
Нулевая гипотеза. Средние значения всех
+
-
выборок равны.
+
-
Предпосылки
+
-
Все случайные величины взаимно
+
-
независимы.
+
-
• Данные каждой выборки распределены по
+
-
одному закону распределения. Обратите
+
-
внимание: закон распределения каждой
+
-
выборки может отличаться от закона
+
-
распределения других.
+
-
Описание метода
+
-
Исходные данные представляются в
+
-
следующем виде (табл. 4.17).
+
-
Таблица 4.17
+
==Критерий Фридмана==
-
Общий вид исходных данных для однофакторного
+
-
дисперсионного анализа
+
-
Номера элементов совокупностей
+
-
Номера совокупностей
+
-
1
+
-
2
+
-
1
+
-
m
+
-
1 I2I...I i |...|n
+
-
Х11
+
-
Х21
+
-
Xii
+
-
Xml
+
-
X12
+
-
X22
+
-
Xi2
+
-
Xm2
+
-
Xij
+
-
X2,
+
-
x„
+
-
Xm)
+
-
Xin
+
-
X2n
+
-
Xjn
+
-
Xmn
+
-
Для этого в каждом столбце значения X
+
-
заменяют их рангами (другими словами,
+
-
вместо значений переменных ставится их
+
-
номер в ряду, упорядоченном по возрастанию).
+
-
Затем рассчитывается значение критерия:
+
-
тп
+
-
{п -н 1)
+
-
Зт{п -¥ 1) >
+
-
(4.19)
+
-
где Ri,
+
-
соответствующие значения рангов.
+
-
Если расчетное значение х^ будет больше
+
-
критического, взятого с заданным уровнем
+
-
значимости и (п - 1) степенью свободы,
+
-
гипотеза о различии между партиями принимается.
+
-
При расчетах можно проверить
+
-
правильность расстановки рангов и расчетов, зная,
+
-
что имеет место соотношение:
+
-
пт
+
-
(т + 1)
+
-
i:i:R,i = '^"^''y ''' (4-20)
+
-
i=1j=1 ^
+
-
Примечание. При малых значениях тип
+
-
критерий х^ дает слишком грубое
+
-
приближение, и при этом возможно принятие
+
-
неправильного решения. Поэтому критерий х^
+
-
применяется в том случае, когда
+
-
выполняются следующие условия: т = 3 и п > 9
+
-
или m = 4 и п > 4 или т > 4,п>9 (см. [4]).
+
-
==Литература==
+
Для проверки гипотезы
-
(для книг)
+
-
==Ссылки==
+
<tex> H_0: \beta_1 = \dots = \beta_k </tex>
-
(для ссылок на внешние URL)
+
-
==См. также==
+
против альтернативы
-
(для ссылок на страницы внутри Ресурса).
+
-
[[Категория:Прикладная статистика]]
+
<tex> H_1 </tex>: не все <tex> \beta_j </tex> равны между собой
-
[[Категория:Дисперсионный анализ]]
+
-
==Дисперсионный анализ==
+
применяется [[Критерий Фридмана]] [Холлендер М., Вульф Д.А., 155; Лагутин М. Б., 260]
-
общие определения, примеры задач и перечень методов (в виде списка ссылок)
+
-
{{TOCright}}
+
===Пример===
 +
Д. Хебб и К.Уильямс разработали тест эстакадного лабиринта для сравнительной оценки "сообразительности" животных. Он состоит из 12 заданий. Есть данные средних чисел ошибок при выполнении этих заданий крысами, кроликами и кошками. Есть ли животные, которые значимо различаются?
-
'''Дисперсионный анализ''' (от латинского Dispersio – рассеивание / на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную ([[регрессионный анализ|отклик]]).
+
==Критерий Пейджа==
-
В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные): <tex>f_1,...,f_k</tex>, а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.
+
Нередко условия эксперимента таковы, что обработки упорядочены естественным образом, например, по интенсивности стимулов, сложности заданий и т.п. Критерий Пейджа учитывает информацию, содержащуюся в предпологаемой ''упорядоченности'' (в отличие от критерия Фридмана, статистика которого принимает одно и то же значение для всех перенумераций обработок).
-
Основной целью '''дисперсионного анализа''' (ANOVA) является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности [[Нулевая гипотеза| нулевой гипотезы]] (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если вы просто сравниваете средние в двух [[выборка]]х, дисперсионный анализ даст тот же результат, что и обычный [[Критерий Стьюдента|t-критерий]] для независимых [[выборка|выборок]] (если сравниваются две независимые группы объектов или наблюдений) или [[Критерий Стьюдента|t-критерий]] для зависимых [[выборка|выборок]] (если сравниваются две переменные на одном и том же множестве объектов или наблюдений).
+
Для проверки гипотезы
-
Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компо­ненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.
+
<tex> H_0: \beta_1 = \dots = \beta_k </tex>
-
Исходным материалом для дисперсионного анализа служат данные исследования трех и более [[выборка|выборок]]: <tex>x_1,...,x_n</tex>, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть '''однофакторным''' (при этом изучается влияние одного фактора на результаты эксперимента), '''двухфакторным''' (при изучении влияния двух факторов) и '''многофакторным''' (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).
+
против альтернативы возрастания эффектов обработок
-
Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является [[Нормальное распределение|нормальным]].
+
<tex> H_2: \beta_1 \leq \dots \leq \beta_k </tex>,
-
Дисперсионный анализ используют, если
+
где хотя бы одно из неравенств строгое,
-
зависимая переменная измеряется в шкале
+
-
отношений, интервалов или порядка, а
+
-
влияющие переменные имеют нечисловую
+
-
природу (шкала наименований).
+
-
==Примеры задач==
+
выполняется [[Критерий Пейджа|статистика критерия Пейджа]] [Холлендер М., Вульф Д.А., 163; Лагутин М. Б., 263]
-
В задачах, которые решаются
+
-
дисперсионным анализом, присутствует отклик
+
-
числовой природы, на который воздействует
+
-
несколько переменных, имеющих
+
-
номинальную природу. Например, несколько видов
+
-
рационов откорма скота или два способа их
+
-
содержания и т.п.
+
-
'''Пример 1:''' В течение недели в трех разных
+
===Пример===
-
местах работало несколько аптечных
+
'''Прочность волокон хлопка.'''
-
киосков. В дальнейшем мы можем оставить
+
-
только один. Необходимо определить,
+
-
существует ли статистически значимое отличие
+
-
между объемами реализации препаратов в
+
-
киосках. Если да, мы выберем киоск с
+
-
наибольшим среднесуточным объемом
+
-
реализации. Если же разница объема реализации
+
-
окажется статистически незначимой, то
+
-
основанием для выбора киоска должны быть
+
-
другие показатели.
+
-
'''Пример 2:''' Cравнение контрастов групповых средних. Семь политических пристрастий упорядочены от крайне либеральные до крайне консервативные, и линейный контраст используется для проверки того, есть ли отличная от нуля тенденция к возрастанию средних значений по группам - т. е. есть ли значимое линейное увеличение среднего возраста при рассмотрении групп, упорядоченных в направлении от либеральных до консервативных.
+
Проведен опыт, в котором изучалось влияние колличества калорий удобрения, вносимого в почву, на разрывную прочность волокон хлопка. С каждой делянки отбирался один образец хлопка, на котором 4 измерительных показателя прочности по Прессли. Даны данные по этим четырем замерам.
 +
С помощью критерия Пейджа проверить гипотезу об отсутствии влияния количества удобрения на прочность нити, против альтернативы убывания прочности с ростом количества удобрения.
-
'''Пример 3:''' Двухфакторный дисперсионный анализ. На количество продаж товара, помимо размеров магазина, часто влияет расположение полок с товаром. Данный пример содержит показатели недельных продаж, характеризуемые четырьмя типами расположения полок и тремя размерами магазинов. Результаты анализа показывают, что оба фактора - расположение полок с товаром и размер магазина -влияют на количество продаж, однако их взаимодействие значимым не является.
 
-
'''Пример 4:''' Одномерный ANOVA: Рандомизированный полноблочный план с двумя обработками. Исследуется влияние на припек хлеба всех возможных комбинаций трех жиров и трех рыхлителей теста. Четыре образца муки, взятые из четырех разных источников, служили в качестве блоковых факторов.Необходимо выявить значимость взаимодействия жир-рыхлитель. После этого определить различные возможности выбора контрастов, позволяющих выяснить, какие именно комбинации уровней факторов различаются.
 
-
'''Пример 5:''' Модель иерархического (гнездового) плана с смешанными эффектами. Изучается влияние четырех случайно выбранных головок, вмонтированных в станок, на деформацию производимых стеклянных держателей катодов. (Головки вмонтированы в станок, так что одна и та же головка не может использоваться на разных станках). Эффект головки обрабатывается как случайный фактор. Статистики ANOVA показывают, что между станками нет значимых различий, но есть признаки того, что головки могут различаться. Различие между всеми станками не значимо, но для двух из них различие между типами головок значимо.
 
-
'''Пример 6:''' Одномерный анализ повторных измерений с использованием плана расщепленных делянок. Этот эксперимент проводился для определения влияния индивидуального рейтинга тревожности на сдачу экзамена в четырех последовательных попытках. Данные организованы так, чтобы их можно было рассматривать как группы подмножеств всего множества данных ("всей делянки"). Эффект тревожности оказался незначимым, а эффект попытки - значим.
 
-
 
-
==Перечень методов==
 
-
 
-
Дисперсионный анализ (ANOVA)
 
-
[Лапач, 193, Кулаичев, 170].
 
-
* Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач; факторы, влияющие на объёмы продаж.
 
-
* [[Однофакторная параметрическая модель]]: метод Шеффе.
 
-
* [[Однофакторная непараметрическая модель]]: [[критерий Краскела-Уоллиса]], [[критерий Джонкхиера]].
 
-
* Общий случай модели с постоянными факторами, теорема Кокрена.
 
-
* [[Двухфакторная непараметрическая модель]]: [[критерий Фридмана]] [Лапач, 203], [[критерий Пейджа]]. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
 
-
* [[Двухфакторная непараметрическая модель для неполных данных]]
 
-
* [[Двухфакторный нормальный анализ]].
 
-
* [[Ковариационный анализ]] (постановка задачи).
 
-
 
-
==История==
 
-
 
-
Откуда произошло название '''дисперсионный анализ'''? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена ''Фишером'' в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ.
 
-
Первоначально дисперсионный анализ был разработан для обработки данных, полученных в ходе специально поставленных экспериментов, и считался единственным методом, корректно исследующим причинные связи. Метод применялся для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.
 
==Литература==
==Литература==
Строка 185: Строка 69:
# ''Шеффе Г.'' Дисперсионный анализ. — М., 1980.
# ''Шеффе Г.'' Дисперсионный анализ. — М., 1980.
# ''Аренс Х.'' ''Лёйтер Ю.'' Многомерный дисперсионный анализ.
# ''Аренс Х.'' ''Лёйтер Ю.'' Многомерный дисперсионный анализ.
-
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
 
# ''Лапач С. Н. , Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002.
# ''Лапач С. Н. , Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002.
# ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
# ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
 +
# ''Холлендер М., Вульф Д.А.'' Непараметрические методы статистики.
== Ссылки ==
== Ссылки ==
-
* [http://www.statsoft.ru/home/textbook/modules/stanman.html Дисперсионный анализ] — Электронный учебник StatSoft.
+
 
-
* [http://www.tspu.tula.ru/res/math/mop/lections/lection_7.htm#_Toc73845987 Дисперсионный анализ] - Аналитическая статистика.
+
* [http://www.tspu.tula.ru/res/math/mop/lections/lection_7.htm#_Toc73845987 Дисперсионный анализ для связанных выборок] - Аналитическая статистика.
* [http://lib.socio.msu.ru/l/library?e=d-000-00---001ucheb--00-0-0-0prompt-10---4------0-1l--1-ru-50---20-about---00031-001-1-0windowsZz-1251-00&a=d&cl=CL1&d=HASHe10c3b36c7d751dd18704b.11 Многофакторный дисперсионный анализ] - Электронная библиотека.
* [http://lib.socio.msu.ru/l/library?e=d-000-00---001ucheb--00-0-0-0prompt-10---4------0-1l--1-ru-50---20-about---00031-001-1-0windowsZz-1251-00&a=d&cl=CL1&d=HASHe10c3b36c7d751dd18704b.11 Многофакторный дисперсионный анализ] - Электронная библиотека.
==См. также==
==См. также==
-
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.
+
* [[Однофакторная параметрическая модель]]
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)]]
+
* [[Однофакторная непараметрическая модель]]
-
* [[Регрессионный анализ]]
+
* [[Дисперсионный анализ]]
-
* [[Ковариационный анализ]]
+
[[Категория:Прикладная статистика]]
[[Категория:Прикладная статистика]]
[[Категория:Дисперсионный анализ]]
[[Категория:Дисперсионный анализ]]

Текущая версия

Содержание

Двухфакторная непараметрическая модель

Данные.

В каждом из n блоков содержится по одному наблюдению x_{ij} на каждуб из k обработок. Будем считать наблюдения реализацией случайных велечин X_{ij} в модели

X_{ij} = \mu + \alpha_i + \beta_j + \epsilon_{ij}, где 1 \le i \le n, 1 \le j \le k, .

Здесь \mu - неизвестное общее среднее, \alpha_i - эффект блока i (неизвестный мешающий параметр), \beta_j - эффект блока j (интересующий нас параметр), \epsilon_{ij} - случайная ошибка j

Допущения.

1. Все ошибки \epsilon_{ij} независимы.

2. Все \epsilon_{ij} имеют одинаковое непрерывное (неизвестное) распределение.

Критерий Фридмана

Для проверки гипотезы

 H_0: \beta_1 = \dots = \beta_k

против альтернативы

 H_1 : не все  \beta_j равны между собой

применяется Критерий Фридмана [Холлендер М., Вульф Д.А., 155; Лагутин М. Б., 260]

Пример

Д. Хебб и К.Уильямс разработали тест эстакадного лабиринта для сравнительной оценки "сообразительности" животных. Он состоит из 12 заданий. Есть данные средних чисел ошибок при выполнении этих заданий крысами, кроликами и кошками. Есть ли животные, которые значимо различаются?

Критерий Пейджа

Нередко условия эксперимента таковы, что обработки упорядочены естественным образом, например, по интенсивности стимулов, сложности заданий и т.п. Критерий Пейджа учитывает информацию, содержащуюся в предпологаемой упорядоченности (в отличие от критерия Фридмана, статистика которого принимает одно и то же значение для всех перенумераций обработок).

Для проверки гипотезы

 H_0: \beta_1 = \dots = \beta_k

против альтернативы возрастания эффектов обработок

 H_2: \beta_1 \leq \dots \leq  \beta_k ,

где хотя бы одно из неравенств строгое,

выполняется статистика критерия Пейджа [Холлендер М., Вульф Д.А., 163; Лагутин М. Б., 263]

Пример

Прочность волокон хлопка.

Проведен опыт, в котором изучалось влияние колличества калорий удобрения, вносимого в почву, на разрывную прочность волокон хлопка. С каждой делянки отбирался один образец хлопка, на котором 4 измерительных показателя прочности по Прессли. Даны данные по этим четырем замерам. С помощью критерия Пейджа проверить гипотезу об отсутствии влияния количества удобрения на прочность нити, против альтернативы убывания прочности с ростом количества удобрения.



Литература

  1. Шеффе Г. Дисперсионный анализ. — М., 1980.
  2. Аренс Х. Лёйтер Ю. Многомерный дисперсионный анализ.
  3. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
  4. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
  5. Холлендер М., Вульф Д.А. Непараметрические методы статистики.

Ссылки

См. также

Личные инструменты