Участник:Lr2k/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 4: Строка 4:
Данные состоят из нескольких рядов наблюдений (обработок), которые рассматриваются как реализации независимых между собой выборок. Исходная гипотеза <tex>H_0</tex> говорит об отсутствии различия в обработках, т.е. предполагается, что все наблюдения можно считать одной выборкой из общей совокупности.
Данные состоят из нескольких рядов наблюдений (обработок), которые рассматриваются как реализации независимых между собой выборок. Исходная гипотеза <tex>H_0</tex> говорит об отсутствии различия в обработках, т.е. предполагается, что все наблюдения можно считать одной выборкой из общей совокупности.
 +
 +
В отличие от [[Однофакторная параметрическая модель| однофакторной параметрической модели]] для непараметрических методов не делается никаких предположений о нормальности выборок. Это существенно расширяет круг рассматриваемых задач.
== Критерий Краскела-Уоллиса ==
== Критерий Краскела-Уоллиса ==
Строка 15: Строка 17:
* выборки взяты из неизвестных непрерывных распределений <tex>F_1(x),\dots,F_k(x)</tex>.
* выборки взяты из неизвестных непрерывных распределений <tex>F_1(x),\dots,F_k(x)</tex>.
-
== Нулевая гипотеза ==
+
=== Нулевая гипотеза ===
<tex>H_0:\; F_1(x)=\dots=F_k(x)</tex> при альтернативе <tex>H_1:\; F_1(x)=F_2(x-\Delta_1)=\dots=F_k(x-\Delta_{k-1})</tex>.
<tex>H_0:\; F_1(x)=\dots=F_k(x)</tex> при альтернативе <tex>H_1:\; F_1(x)=F_2(x-\Delta_1)=\dots=F_k(x-\Delta_{k-1})</tex>.
Строка 22: Строка 24:
'''Пример 1:''' Проходит чемпионат мира по футболу. Первая выборка — опрос болельщиков с вопросом "Каковы шансы на победу сборной России?" до начала чемпионата. Вторая выборка — после первой игры, третья —- после второго матча и т.д. Значения в выборках — шансы России на победу по десятибальной шкале (1 — никаких перспектив, 10 — отвезти в Россию кубок — дело времени). Требуется проверить, зависят ли результаты опросов от хода чемпионата.
'''Пример 1:''' Проходит чемпионат мира по футболу. Первая выборка — опрос болельщиков с вопросом "Каковы шансы на победу сборной России?" до начала чемпионата. Вторая выборка — после первой игры, третья —- после второго матча и т.д. Значения в выборках — шансы России на победу по десятибальной шкале (1 — никаких перспектив, 10 — отвезти в Россию кубок — дело времени). Требуется проверить, зависят ли результаты опросов от хода чемпионата.
-
'''Пример 2:''' Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью — 1 слово в 5 секунд, второй группе со средней скоростью — 1 слово в 2 секунды, и третьей группе с большой скоростью — 1 слово в секунду. Необходимо определить, будут ли показатели воспроизведения зависеть от скорости предъявления слов.
+
'''Пример 2:''' Есть 3 различных магазина, принадлежащих одной фирме и расположенных в разных точках города, и подневная история объемов продаж в этих магазинах. Необходимо выяснить, есть ли различие в количестве покупок, совершаемых ежедневно в этих магазинах.
-
 
+
-
''Пример 3:''' Группа из 5 испытуемых была обследована с помощью трех экспериментальных заданий, направленных на изучение интеллектуальной настойчивости. Каждому испытуемому индивидуально предъявлялись последовательно три одинаковые анаграммы: четырехбуквенная, пятибуквенная и шестибуквенная. Можно ли считать, что фактор длины анаграммы влияет на длительность попыток ее решения?
+
-
 
+
== Критерий Джонкхиера ==
== Критерий Джонкхиера ==
[[Критерий Джонкхиера]] основан на попарных статистиках [[Критерий Уилкоксона-Манна-Уитни|Уилкоксона-Манна-Уитни]] и используется для проверки [[гипотеза сдвига|гипотезы сдвига]] против альтернатив упорядоченности.
[[Критерий Джонкхиера]] основан на попарных статистиках [[Критерий Уилкоксона-Манна-Уитни|Уилкоксона-Манна-Уитни]] и используется для проверки [[гипотеза сдвига|гипотезы сдвига]] против альтернатив упорядоченности.
 +
 +
=== Нулевая гипотеза ===
 +
 +
[[Гипотеза сдвига]]
=== Примеры задач ===
=== Примеры задач ===
Строка 46: Строка 49:
* [http://www.tspu.tula.ru/res/math/mop/lections/lection_7.htm#_Toc73845987 Дисперсионный анализ для связанных выборок] - Аналитическая статистика.
* [http://www.tspu.tula.ru/res/math/mop/lections/lection_7.htm#_Toc73845987 Дисперсионный анализ для связанных выборок] - Аналитическая статистика.
* [http://khomich.narod.ru/metodichka/Dispersionniy/Dispersionniy.htm Дисперсионный анализ].
* [http://khomich.narod.ru/metodichka/Dispersionniy/Dispersionniy.htm Дисперсионный анализ].
 +
* [http://www.ievbran.ru/Kiril/Library/Book1/content354/content354.htm Непараметрические критерии для оценки однородности выборок]
* [http://www.technion.ac.il/docs/sas/stat/chap28/sect25.htm Jonckheere-Terpstra Test].
* [http://www.technion.ac.il/docs/sas/stat/chap28/sect25.htm Jonckheere-Terpstra Test].

Версия 09:19, 30 декабря 2009

Содержание

Однофакторная модель в рамках дисперсионного анализа используется для исследования влияния одной переменной (фактора) на одну зависимую количественную переменную (отклик).

Данные состоят из нескольких рядов наблюдений (обработок), которые рассматриваются как реализации независимых между собой выборок. Исходная гипотеза H_0 говорит об отсутствии различия в обработках, т.е. предполагается, что все наблюдения можно считать одной выборкой из общей совокупности.

В отличие от однофакторной параметрической модели для непараметрических методов не делается никаких предположений о нормальности выборок. Это существенно расширяет круг рассматриваемых задач.

Критерий Краскела-Уоллиса

В качестве непараметрического теста для выявления наличия статистически значимых различий между средними нескольких выборок используется критерий Краскела-Уоллиса. Он используется для сравнения трех или более выборок, и проверяет нулевые гипотезы, согласно которым различные выборки были взяты из одного и того же распределения, или из распределений с одинаковыми медианами. Таким образом, интерпретация критерия Краскела-Уоллиса сходна с параметрическим одномерным дисперсионным анализом, за исключением того, что этот критерий основан на рангах, а на средних.

Пусть заданы k выборок: x_1^{n_1}=\left\{x_{11},\dots,x_{1n_1}\right\}, \dots, x_k^{n_k}=\left\{x_{k1},\dots,x_{kn_k}\right\}. Объединённая выборка: x=x_1^{n_1}\cup x_2^{n_2}\cup \dots \cup x_k^{n_k}.

Дополнительные предположения

  • обе выборки простые, объединённая выборка независима;
  • выборки взяты из неизвестных непрерывных распределений F_1(x),\dots,F_k(x).

Нулевая гипотеза

H_0:\; F_1(x)=\dots=F_k(x) при альтернативе H_1:\; F_1(x)=F_2(x-\Delta_1)=\dots=F_k(x-\Delta_{k-1}).

Примеры задач

Пример 1: Проходит чемпионат мира по футболу. Первая выборка — опрос болельщиков с вопросом "Каковы шансы на победу сборной России?" до начала чемпионата. Вторая выборка — после первой игры, третья —- после второго матча и т.д. Значения в выборках — шансы России на победу по десятибальной шкале (1 — никаких перспектив, 10 — отвезти в Россию кубок — дело времени). Требуется проверить, зависят ли результаты опросов от хода чемпионата.

Пример 2: Есть 3 различных магазина, принадлежащих одной фирме и расположенных в разных точках города, и подневная история объемов продаж в этих магазинах. Необходимо выяснить, есть ли различие в количестве покупок, совершаемых ежедневно в этих магазинах.

Критерий Джонкхиера

Критерий Джонкхиера основан на попарных статистиках Уилкоксона-Манна-Уитни и используется для проверки гипотезы сдвига против альтернатив упорядоченности.

Нулевая гипотеза

Гипотеза сдвига

Примеры задач

Пример 1: Имеется гипотеза, что по мере перехода на старшие курсы падает посещаемость лекций. Для выяснения, верно ли это предположение, декан организовал выборочный контроль студентов. Случайным образом были отобраны по пять студентов с каждого курса и организован учёт числа посещённых ими лекций из 30, отобранных случайно на каждом курсе.

Пример 2: Утки-пеганки изучались в 20-ти ареалах обитания в устье реки Северн, Великобритания. Целью исследования было выяснить, зависит ли "чистота" окраса (его равномерность и выраженность границ) от того района, где питались птицы. "Чистота" была измерена от 1-го до 8-и, то есть от худшего до лучшего, качество всех районов было ранжировано как "плохой", "средний" и "хороший".

Литература

  1. Шеффе Г. Дисперсионный анализ. — М., 1980.
  2. Аренс Х. Лёйтер Ю. Многомерный дисперсионный анализ.
  3. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
  4. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
  5. Холлендер М., Вульф Д.А. Непараметрические методы статистики.

Ссылки

См. также


Данная статья является непроверенным учебным заданием.
Студент: Участник:Lr2k
Преподаватель: Участник:Vokov
Срок: 31 декабря 2009

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Личные инструменты