Участник:Пасконова Ольга/Песочница

Материал из MachineLearning.

< Участник:Пасконова Ольга(Различия между версиями)
Перейти к: навигация, поиск
(См. также)
Текущая версия (11:10, 16 декабря 2009) (править) (отменить)
(История)
 
(45 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
====Статьи о группах методов или критериев====
+
== Двухфакторная непараметрическая модель ==
-
{{well|'''Некоторые рекомендации'''
+
-
 
+
-
# Эти статьи не содержат описаний методов, но в них должны перечисляться ссылки на большое число методов или критериев, объединённых под данным общим названием.
+
-
# Должно даваться общее определение из классических источников (например, из энциклопедии теории вероятностей и математической статистики).
+
-
# Желательны примеры задач.
+
-
# Желательно указывать, чем отличаются различные критерии и методы в данной группе друг от друга, какие есть рекомендации по выбору одного из этих методов.
+
-
# Любые сообщаемые факты должны сопровождаться ссылками на источник.
+
-
# Помните, что предоставляемая информация должна быть полезна специалистам при решении практических задач.
+
-
# Собрать грамотную подборку ссылок (вместо тупого копирования их содержимого) с вашими лаконичными комментариями — это уже очень полезно!
+
-
 
+
-
—&nbsp;''[[Участник:Vokov|К.В.Воронцов]] 02:14, 14 ноября 2009 (MSK)''
+
-
}}
+
-
 
+
-
 
+
-
Ссылки на источники обязательны. Если Вы упоминаете другие понятия прикладной статистики (в том числе названия статистических критериев), оформляйте их как ссылки на страницы внутри Ресурса. В конце каждой статьи не забывайте про разделы ==Литература== (для книг), ==Ссылки== (для ссылок на внешние URL), ==См. также== (для ссылок на страницы внутри Ресурса).
+
-
 
+
-
==Двухфакторная непараметрическая модель.==
+
-
новая статья
+
* [[Двухфакторная непараметрическая модель]]: [[критерий Фридмана]] [Лапач, 203], [[критерий Пейджа]]. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
* [[Двухфакторная непараметрическая модель]]: [[критерий Фридмана]] [Лапач, 203], [[критерий Пейджа]]. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
 +
'''Данные.'''
-
Назначение. В том случае, когда закон
+
В каждом из <tex>n</tex> блоков содержится по одному наблюдению <tex>x_{ij}</tex>
-
распределения не является нормальным,
+
на каждуб из <tex>k</tex> обработок. Будем считать наблюдения реализацией случайных велечин
-
используется непараметрический
+
<tex>X_{ij}</tex> в модели
-
дисперсионный анализ Фридмана.
+
-
Нулевая гипотеза. Средние значения всех
+
-
выборок равны.
+
-
Предпосылки
+
-
• Все случайные величины взаимно
+
-
независимы.
+
-
• Данные каждой выборки распределены по
+
-
одному закону распределения. Обратите
+
-
внимание: закон распределения каждой
+
-
выборки может отличаться от закона
+
-
распределения других.
+
-
Описание метода
+
-
Исходные данные представляются в
+
-
следующем виде (табл. 4.17).
+
-
Таблица 4.17
+
<tex>X_{ij} = \mu + \alpha_i + \beta_j + \epsilon_{ij}</tex>,
-
Общий вид исходных данных для однофакторного
+
где <tex>1 \le i \le n, 1 \le j \le k, </tex>.
-
дисперсионного анализа
+
-
Номера элементов совокупностей
+
-
Номера совокупностей
+
-
1
+
-
2
+
-
1
+
-
m
+
-
1 I2I...I i |...|n
+
-
Х11
+
-
Х21
+
-
Xii
+
-
Xml
+
-
X12
+
-
X22
+
-
Xi2
+
-
Xm2
+
-
Xij
+
-
X2,
+
-
x„
+
-
Xm)
+
-
Xin
+
-
X2n
+
-
Xjn
+
-
Xmn
+
-
Для этого в каждом столбце значения X
+
-
заменяют их рангами (другими словами,
+
-
вместо значений переменных ставится их
+
-
номер в ряду, упорядоченном по возрастанию).
+
-
Затем рассчитывается значение критерия:
+
-
тп
+
-
{п -н 1)
+
-
Зт{п -¥ 1) >
+
-
(4.19)
+
-
где Ri,
+
-
соответствующие значения рангов.
+
-
Если расчетное значение х^ будет больше
+
-
критического, взятого с заданным уровнем
+
-
значимости и (п - 1) степенью свободы,
+
-
гипотеза о различии между партиями принимается.
+
-
При расчетах можно проверить
+
-
правильность расстановки рангов и расчетов, зная,
+
-
что имеет место соотношение:
+
-
пт
+
-
(т + 1)
+
-
i:i:R,i = '^"^''y ''' (4-20)
+
-
i=1j=1 ^
+
-
Примечание. При малых значениях тип
+
-
критерий х^ дает слишком грубое
+
-
приближение, и при этом возможно принятие
+
-
неправильного решения. Поэтому критерий х^
+
-
применяется в том случае, когда
+
-
выполняются следующие условия: т = 3 и п > 9
+
-
или m = 4 и п > 4 или т > 4,п>9 (см. [4]).
+
-
==Литература==
+
Здесь <tex>\mu</tex> - неизвестное общее среднее,
-
(для книг)
+
<tex>\alpha_i</tex> - эффект блока <tex>i</tex> (неизвестный мешающий параметр),
 +
<tex>\beta_j</tex> - эффект блока <tex>j</tex> (интересующий нас параметр),
 +
<tex>\epsilon_{ij}</tex> - случайная ошибка
 +
<tex>j</tex>
-
==Ссылки==
+
'''Допущения.'''
-
(для ссылок на внешние URL)
+
-
==См. также==
+
'''1.''' Все ошибки <tex>\epsilon_{ij}</tex> независимы.
-
(для ссылок на страницы внутри Ресурса).
+
-
[[Категория:Прикладная статистика]]
+
'''2.''' Все <tex>\epsilon_{ij}</tex> имеют одинаковое непрерывное (неизвестное) распределение.
-
[[Категория:Дисперсионный анализ]]
+
-
==Дисперсионный анализ==
+
==Критерий Фридмана==
-
общие определения, примеры задач и перечень методов (в виде списка ссылок)
+
-
{{TOCright}}
+
Для проверки гипотезы
-
'''Дисперсионный анализ''' (от латинского Dispersio – рассеивание / на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную ([[регрессионный анализ|отклик]]).
+
<tex> H_0: \beta_1 = \dots = \beta_k </tex>
-
В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные): <tex>f_1,...,f_k</tex>, а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.
+
против альтернативы
-
Основной целью '''дисперсионного анализа''' (ANOVA) является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности [[Нулевая гипотеза| нулевой гипотезы]] (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если вы просто сравниваете средние в двух [[выборка]]х, дисперсионный анализ даст тот же результат, что и обычный [[Критерий Стьюдента|t-критерий]] для независимых [[выборка|выборок]] (если сравниваются две независимые группы объектов или наблюдений) или [[Критерий Стьюдента|t-критерий]] для зависимых [[выборка|выборок]] (если сравниваются две переменные на одном и том же множестве объектов или наблюдений).
+
<tex> H_1 </tex>: не все <tex> \beta_j </tex> равны между собой
-
Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компо­ненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.
+
применяется [[Критерий Фридмана]] [Холлендер М., Вульф Д.А., 155; Лагутин М. Б., 260]
-
Исходным материалом для дисперсионного анализа служат данные исследования трех и более [[выборка|выборок]]: <tex>x_1,...,x_n</tex>, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть '''однофакторным''' (при этом изучается влияние одного фактора на результаты эксперимента), '''двухфакторным''' (при изучении влияния двух факторов) и '''многофакторным''' (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).
+
===Пример===
 +
Д. Хебб и К.Уильямс разработали тест эстакадного лабиринта для сравнительной оценки "сообразительности" животных. Он состоит из 12 заданий. Есть данные средних чисел ошибок при выполнении этих заданий крысами, кроликами и кошками. Есть ли животные, которые значимо различаются?
-
Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является [[Нормальное распределение|нормальным]].
+
==Критерий Пейджа==
-
Дисперсионный анализ используют, если
+
Нередко условия эксперимента таковы, что обработки упорядочены естественным образом, например, по интенсивности стимулов, сложности заданий и т.п. Критерий Пейджа учитывает информацию, содержащуюся в предпологаемой ''упорядоченности'' (в отличие от критерия Фридмана, статистика которого принимает одно и то же значение для всех перенумераций обработок).
-
зависимая переменная измеряется в шкале
+
-
отношений, интервалов или порядка, а
+
-
влияющие переменные имеют нечисловую
+
-
природу (шкала наименований).
+
-
==Примеры задач==
+
Для проверки гипотезы
-
В задачах, которые решаются
+
-
дисперсионным анализом, присутствует отклик
+
-
числовой природы, на который воздействует
+
-
несколько переменных, имеющих
+
-
номинальную природу. Например, несколько видов
+
-
рационов откорма скота или два способа их
+
-
содержания и т.п.
+
-
'''Пример 1:''' В течение недели в трех разных
+
<tex> H_0: \beta_1 = \dots = \beta_k </tex>
-
местах работало несколько аптечных
+
-
киосков. В дальнейшем мы можем оставить
+
-
только один. Необходимо определить,
+
-
существует ли статистически значимое отличие
+
-
между объемами реализации препаратов в
+
-
киосках. Если да, мы выберем киоск с
+
-
наибольшим среднесуточным объемом
+
-
реализации. Если же разница объема реализации
+
-
окажется статистически незначимой, то
+
-
основанием для выбора киоска должны быть
+
-
другие показатели.
+
-
'''Пример 2:''' Двухфакторный дисперсионный анализ. На количество продаж товара, помимо размеров магазина, часто влияет расположение полок с товаром. Данный пример содержит показатели недельных продаж, характеризуемые четырьмя типами расположения полок и тремя размерами магазинов. Результаты анализа показывают, что оба фактора - расположение полок с товаром и размер магазина -влияют на количество продаж, однако их взаимодействие значимым не является.
+
против альтернативы возрастания эффектов обработок
-
'''Пример 3:''' Одномерный ANOVA: Рандомизированный полноблочный план с двумя обработками. Исследуется влияние на припек хлеба всех возможных комбинаций трех жиров и трех рыхлителей теста. Четыре образца муки, взятые из четырех разных источников, служили в качестве блоковых факторов.Необходимо выявить значимость взаимодействия жир-рыхлитель. После этого определить различные возможности выбора контрастов, позволяющих выяснить, какие именно комбинации уровней факторов различаются.
+
<tex> H_2: \beta_1 \leq \dots \leq \beta_k </tex>,
-
'''Пример 4:''' Модель иерархического (гнездового) плана с смешанными эффектами. Изучается влияние четырех случайно выбранных головок, вмонтированных в станок, на деформацию производимых стеклянных держателей катодов. (Головки вмонтированы в станок, так что одна и та же головка не может использоваться на разных станках). Эффект головки обрабатывается как случайный фактор. Статистики ANOVA показывают, что между станками нет значимых различий, но есть признаки того, что головки могут различаться. Различие между всеми станками не значимо, но для двух из них различие между типами головок значимо.
+
где хотя бы одно из неравенств строгое,
-
'''Пример 5:''' Одномерный анализ повторных измерений с использованием плана расщепленных делянок. Этот эксперимент проводился для определения влияния индивидуального рейтинга тревожности на сдачу экзамена в четырех последовательных попытках. Данные организованы так, чтобы их можно было рассматривать как группы подмножеств всего множества данных ("всей делянки"). Эффект тревожности оказался незначимым, а эффект попытки - значим.
+
выполняется [[Критерий Пейджа|статистика критерия Пейджа]] [Холлендер М., Вульф Д.А., 163; Лагутин М. Б., 263]
-
==Перечень методов==
+
===Пример===
 +
'''Прочность волокон хлопка.'''
-
Разбиение суммы квадратов
+
Проведен опыт, в котором изучалось влияние колличества калорий удобрения, вносимого в почву, на разрывную прочность волокон хлопка. С каждой делянки отбирался один образец хлопка, на котором 4 измерительных показателя прочности по Прессли. Даны данные по этим четырем замерам.
-
Многофакторный дисперсионный анализ
+
С помощью критерия Пейджа проверить гипотезу об отсутствии влияния количества удобрения на прочность нити, против альтернативы убывания прочности с ростом количества удобрения.
-
Эффекты взаимодействия
+
-
Также смотрите разделы.
+
-
Сложные планы
+
-
Ковариационный анализ (ANCOVA)
+
-
Многомерные планы: многомерный дисперсионный и ковариационный анализ
+
-
Анализ контрастов и апостериорные критерии
+
-
Предположения и эффекты их нарушения
+
-
См. также Методы дисперсионного анализа, Компоненты дисперсии и смешанная модель ANOVA/ANCOVA, а также Планироване эксперимента.
 
-
Дисперсионный анализ (ANOVA) [Лапач, 193, Кулаичев, 170]. Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач; факторы, влияющие на объёмы продаж. Однофакторная параметрическая модель: метод Шефе. Однофакторная непараметрическая модель: критерии Краскела-Уоллиса, Джонкхиера. Общий случай модели с постоянными факторами, теорема Кокрена. Двухфакторная непараметрическая модель: критерии Фридмана [Лапач, 203], Пейджа. Примеры: сравнение эффективности методов производства, агротехнических приёмов. Двухфакторный нормальный анализ. Задача ковариационного анализа.
 
-
 
-
Дисперсионный анализ (ANOVA)
 
-
[Лапач, 193, Кулаичев, 170].
 
-
* Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач; факторы, влияющие на объёмы продаж.
 
-
* [[Однофакторная параметрическая модель]]: метод Шеффе.
 
-
* [[Однофакторная непараметрическая модель]]: [[критерий Краскела-Уоллиса]], [[критерий Джонкхиера]].
 
-
* Общий случай модели с постоянными факторами, теорема Кокрена.
 
-
* [[Двухфакторная непараметрическая модель]]: [[критерий Фридмана]] [Лапач, 203], [[критерий Пейджа]]. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
 
-
* [[Двухфакторный нормальный анализ]].
 
-
* [[Ковариационный анализ]] (постановка задачи).
 
-
 
-
==История==
 
-
 
-
Откуда произошло название '''Дисперсионный анализ'''? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ.
 
-
Первоначально дисперсионный анализ был разработан для обработки данных, полученных в ходе специально поставленных экспериментов, и считался единственным методом, корректно исследующим причинные связи. Метод применялся для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.
 
==Литература==
==Литература==
Строка 198: Строка 69:
# ''Шеффе Г.'' Дисперсионный анализ. — М., 1980.
# ''Шеффе Г.'' Дисперсионный анализ. — М., 1980.
# ''Аренс Х.'' ''Лёйтер Ю.'' Многомерный дисперсионный анализ.
# ''Аренс Х.'' ''Лёйтер Ю.'' Многомерный дисперсионный анализ.
-
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
+
# ''Лапач С. Н. , Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002.
 +
# ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
 +
# ''Холлендер М., Вульф Д.А.'' Непараметрические методы статистики.
== Ссылки ==
== Ссылки ==
-
* [http://www.statsoft.ru/home/textbook/modules/stanman.html Дисперсионный анализ] — Электронный учебник StatSoft.
+
 
-
* [http://www.tspu.tula.ru/res/math/mop/lections/lection_7.htm#_Toc73845987 Дисперсионный анализ] - Аналитическая статистика.
+
* [http://www.tspu.tula.ru/res/math/mop/lections/lection_7.htm#_Toc73845987 Дисперсионный анализ для связанных выборок] - Аналитическая статистика.
 +
* [http://lib.socio.msu.ru/l/library?e=d-000-00---001ucheb--00-0-0-0prompt-10---4------0-1l--1-ru-50---20-about---00031-001-1-0windowsZz-1251-00&a=d&cl=CL1&d=HASHe10c3b36c7d751dd18704b.11 Многофакторный дисперсионный анализ] - Электронная библиотека.
==См. также==
==См. также==
-
(для ссылок на страницы внутри Ресурса).
+
 
-
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.
+
* [[Однофакторная параметрическая модель]]
-
* [[Статистика (функция выборки)]]
+
* [[Однофакторная непараметрическая модель]]
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)]]
+
* [[Дисперсионный анализ]]
[[Категория:Прикладная статистика]]
[[Категория:Прикладная статистика]]
[[Категория:Дисперсионный анализ]]
[[Категория:Дисперсионный анализ]]

Текущая версия

Содержание

Двухфакторная непараметрическая модель

Данные.

В каждом из n блоков содержится по одному наблюдению x_{ij} на каждуб из k обработок. Будем считать наблюдения реализацией случайных велечин X_{ij} в модели

X_{ij} = \mu + \alpha_i + \beta_j + \epsilon_{ij}, где 1 \le i \le n, 1 \le j \le k, .

Здесь \mu - неизвестное общее среднее, \alpha_i - эффект блока i (неизвестный мешающий параметр), \beta_j - эффект блока j (интересующий нас параметр), \epsilon_{ij} - случайная ошибка j

Допущения.

1. Все ошибки \epsilon_{ij} независимы.

2. Все \epsilon_{ij} имеют одинаковое непрерывное (неизвестное) распределение.

Критерий Фридмана

Для проверки гипотезы

 H_0: \beta_1 = \dots = \beta_k

против альтернативы

 H_1 : не все  \beta_j равны между собой

применяется Критерий Фридмана [Холлендер М., Вульф Д.А., 155; Лагутин М. Б., 260]

Пример

Д. Хебб и К.Уильямс разработали тест эстакадного лабиринта для сравнительной оценки "сообразительности" животных. Он состоит из 12 заданий. Есть данные средних чисел ошибок при выполнении этих заданий крысами, кроликами и кошками. Есть ли животные, которые значимо различаются?

Критерий Пейджа

Нередко условия эксперимента таковы, что обработки упорядочены естественным образом, например, по интенсивности стимулов, сложности заданий и т.п. Критерий Пейджа учитывает информацию, содержащуюся в предпологаемой упорядоченности (в отличие от критерия Фридмана, статистика которого принимает одно и то же значение для всех перенумераций обработок).

Для проверки гипотезы

 H_0: \beta_1 = \dots = \beta_k

против альтернативы возрастания эффектов обработок

 H_2: \beta_1 \leq \dots \leq  \beta_k ,

где хотя бы одно из неравенств строгое,

выполняется статистика критерия Пейджа [Холлендер М., Вульф Д.А., 163; Лагутин М. Б., 263]

Пример

Прочность волокон хлопка.

Проведен опыт, в котором изучалось влияние колличества калорий удобрения, вносимого в почву, на разрывную прочность волокон хлопка. С каждой делянки отбирался один образец хлопка, на котором 4 измерительных показателя прочности по Прессли. Даны данные по этим четырем замерам. С помощью критерия Пейджа проверить гипотезу об отсутствии влияния количества удобрения на прочность нити, против альтернативы убывания прочности с ростом количества удобрения.



Литература

  1. Шеффе Г. Дисперсионный анализ. — М., 1980.
  2. Аренс Х. Лёйтер Ю. Многомерный дисперсионный анализ.
  3. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
  4. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
  5. Холлендер М., Вульф Д.А. Непараметрические методы статистики.

Ссылки

См. также

Личные инструменты