Статистический анализ данных (курс лекций, К.В.Воронцов)/2009

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Одинокова Евгения)
 
(136 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
= Задание 1 =
+
{{TOCright}}
 +
= Задание 1. Исследование статистических критериев на модельных данных =
Необходимо провести исследование одного из классических критериев проверки статистических гипотез. Интерес представляет поведение
Необходимо провести исследование одного из классических критериев проверки статистических гипотез. Интерес представляет поведение
[[Достигаемый уровень значимости|достигаемого уровня значимости]] (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо сгенерировать одну или несколько выборок из указанного распределения, выполнить [[Проверка статистических гипотез|проверку гипотезы]] при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. При этом, в зависимости от индивидуальных особенностей задания, выборки могут как генерироваться заново для каждого значения объёма выборки <tex>n</tex>, так и образовываться путём добавления одного элемента к уже имеющейся выборке объёма <tex>n-1</tex>. По результатам расчётов необходимо построить следующие графики:
[[Достигаемый уровень значимости|достигаемого уровня значимости]] (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо сгенерировать одну или несколько выборок из указанного распределения, выполнить [[Проверка статистических гипотез|проверку гипотезы]] при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. При этом, в зависимости от индивидуальных особенностей задания, выборки могут как генерироваться заново для каждого значения объёма выборки <tex>n</tex>, так и образовываться путём добавления одного элемента к уже имеющейся выборке объёма <tex>n-1</tex>. По результатам расчётов необходимо построить следующие графики:
Строка 7: Строка 8:
* график с эмпирическими оценками [[Мощность критерия|мощности критерия]] для разных значений параметров (+1 балл).
* график с эмпирическими оценками [[Мощность критерия|мощности критерия]] для разных значений параметров (+1 балл).
-
В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся <tex>k</tex> раз для каждого набора значений параметра, и в <tex>m</tex> из <tex>k</tex> случаев гипотеза была отвергнута на некотором фиксированном уровне значимости <tex>\alpha</tex> (примем <tex>\alpha=0.5</tex>), оценкой мощности будет отношение <tex>m/k</tex>.
+
В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся <tex>k</tex> раз для каждого набора значений параметра, и в <tex>m</tex> из <tex>k</tex> случаев гипотеза была отвергнута на некотором фиксированном уровне значимости <tex>\alpha</tex> (примем <tex>\alpha=0.05</tex>), оценкой мощности будет отношение <tex>m/k</tex>.
 +
 
 +
Необходимо сдать: выполненный в LaTex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и '''выводами (объяснение полученных результатов моделирования, границы применимости критерия и т.д.)''', а также *.m-файл.
== Пример выполнения задания ==
== Пример выполнения задания ==
Строка 36: Строка 39:
== Индивидуальные параметры задания ==
== Индивидуальные параметры задания ==
-
 
===Одновыборочный критерий Стьюдента===
===Одновыборочный критерий Стьюдента===
<tex>x^n \sim N(\mu,1);</tex>
<tex>x^n \sim N(\mu,1);</tex>
-
<tex>H_0\,:\; \mu=0, \;\; H_1\,:\; \mu\neq 0.</tex>
+
<tex>H_0\,:\; \mu=0, \;\; H_1\,:\; \mu\neq 0;</tex>
<tex>\mu=0\,:\,0,05\,:\,3; \;\;\; n=5\,:\,1\,:\,50.</tex>
<tex>\mu=0\,:\,0,05\,:\,3; \;\;\; n=5\,:\,1\,:\,50.</tex>
-
 
+
=====Безродный Богдан=====
-
======Безродный Богдан======
+
При каждом значении <tex>\mu</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
При каждом значении <tex>\mu</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
-
 
=====Двойнев Александр=====
=====Двойнев Александр=====
При каждом значении <tex>\mu</tex> выборка <tex>x^n</tex> получается из <tex>x^{n-1}</tex> добавлением одного случайного элемента.
При каждом значении <tex>\mu</tex> выборка <tex>x^n</tex> получается из <tex>x^{n-1}</tex> добавлением одного случайного элемента.
-
 
===Двухвыборочный критерий Стьюдента для независимых выборок===
===Двухвыборочный критерий Стьюдента для независимых выборок===
<tex>x^n \sim N(\mu_1,\sigma_1),\;\; y^n \sim N(\mu_2,\sigma_2);</tex>
<tex>x^n \sim N(\mu_1,\sigma_1),\;\; y^n \sim N(\mu_2,\sigma_2);</tex>
-
<tex>H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2.</tex>
+
<tex>H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;</tex>
-
 
+
-
<tex>\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; n=5\,:\,1\,:\,50.</tex>
+
 +
<tex> n=5\,:\,1\,:\,50.</tex>
=====Коликова Екатерина=====
=====Коликова Екатерина=====
-
<tex>\sigma_1=\sigma_2=1;</tex> при каждом значении <tex>\mu_2</tex> выборки <tex>x^n, y^n</tex> получаются из <tex>x^{n-1}, y^{n-1}</tex> добавлением одного случайного элемента.
+
<tex>\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; \sigma_1=\sigma_2=1;</tex> при каждом значении <tex>\mu_2</tex> выборки <tex>x^n, y^n</tex> получаются из <tex>x^{n-1}, y^{n-1}</tex> добавлением одного случайного элемента.
-
 
+
=====Черняев Константин=====
 +
<tex>\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; \sigma_1=\sigma_2=1;</tex> при каждом значении <tex>\mu_2</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
=====Задонский Дмитрий=====
=====Задонский Дмитрий=====
-
<tex>\sigma_1=1;\;\;\sigma_2=2;</tex> при каждом значении <tex>\mu_2</tex> выборки <tex>x^n, y^n</tex> получаются из <tex>x^{n-1}, y^{n-1}</tex> добавлением одного случайного элемента.
+
<tex>\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; \sigma_1=1;\;\;\sigma_2=2;</tex> при каждом значении <tex>\mu_2</tex> выборки <tex>x^n, y^n</tex> получаются из <tex>x^{n-1}, y^{n-1}</tex> добавлением одного случайного элемента.
-
 
+
=====Ломакин Василий=====
=====Ломакин Василий=====
-
<tex>\sigma_1=1;\;\;\sigma_2=2;</tex> при каждом значении <tex>\mu_2</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
+
<tex>\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; \sigma_1=1;\;\;\sigma_2=2;</tex> при каждом значении <tex>\mu_2</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
 +
=====Гуков Алексей=====
 +
<tex>\mu_1=\mu_2=0; \;\;\; \sigma_1=1;\;\;\sigma_2=0.1\,:\,0.1\,:\,4;</tex> при каждом значении <tex>\sigma_2</tex> выборки <tex>x^n, y^n</tex> получаются из <tex>x^{n-1}, y^{n-1}</tex> добавлением одного случайного элемента.
 +
=====Решетняк Илья=====
 +
<tex>\mu_1=\mu_2=0; \;\;\; \sigma_1=1;\;\;\sigma_2=0.1\,:\,0.1\,:\,4;</tex> при каждом значении <tex>\sigma_2</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
-
=====Алимбаев Данияр=====
+
===Двухвыборочный критерий Стьюдента для связных выборок (случай парных повторных наблюдений)===
 +
<tex>x^n \sim N(\mu_1,1),\;\; y^n \sim N(\mu_2,1);</tex>
-
=====Аманжолов Рустем=====
+
<tex>H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;</tex>
-
=====Ахламченкова Ольга=====
+
<tex>\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; n=5\,:\,1\,:\,50.</tex>
 +
=====Дзыба Дмитрий=====
 +
При каждом значении <tex>\mu_2</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
 +
=====Осокин Антон=====
 +
При каждом значении <tex>\mu_2</tex> выборки <tex>x^n, y^n</tex> получаются из <tex>x^{n-1}, y^{n-1}</tex> добавлением одного случайного элемента.
 +
===Одновыборочный критерий Уилкоксона===
 +
<tex>x^n \sim F(\mu);</tex>
 +
 +
<tex>H_0\,:\; \mu=0, \;\; H_1\,:\; \mu\neq 0;</tex>
 +
 +
<tex>\mu=0\,:\,0,05\,:\,3; \;\;\; n=5\,:\,1\,:\,50.</tex>
 +
=====Задонский Максим=====
 +
<tex>F(\mu)=N(\mu,1);</tex> при каждом значении <tex>\mu</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
 +
=====Карпинская Алина=====
 +
<tex>F(\mu)=N(\mu,1);</tex> при каждом значении <tex>\mu</tex> выборка <tex>x^n</tex> получается из <tex>x^{n-1}</tex> добавлением одного случайного элемента.
 +
=====Нарышкин Андрей=====
 +
<tex>F(\mu)=U[\mu-3,\mu];</tex> при каждом значении <tex>\mu</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
=====Вишняков Святослав=====
=====Вишняков Святослав=====
 +
<tex>F(\mu)=U[\mu-3,\mu];</tex> при каждом значении <tex>\mu</tex> выборка <tex>x^n</tex> получается из <tex>x^{n-1}</tex> добавлением одного случайного элемента.
 +
===Двухвыборочный критерий Уилкоксона для связных выборок (случай парных повторных наблюдений)===
 +
<tex>x^n \sim F(\mu_1),\;\; y^n \sim F(\mu_2);</tex>
 +
 +
<tex>H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;</tex>
 +
 +
<tex>\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; n=5\,:\,1\,:\,50.</tex>
=====Гикал Александр=====
=====Гикал Александр=====
 +
<tex>F=N(\mu,1);</tex> при каждом значении <tex>\mu_2</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
 +
=====Ломакина-Румянцева Екатерина=====
 +
<tex>F=N(\mu,1);</tex> при каждом значении <tex>\mu_2</tex> выборки <tex>x^n, y^n</tex> получаются из <tex>x^{n-1}, y^{n-1}</tex> добавлением одного случайного элемента.
 +
=====Джумабекова Айнагуль=====
 +
<tex>F=U[0,\mu+1];</tex> при каждом значении <tex>\mu_2</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
 +
=====Мягков Артем=====
 +
<tex>F=U[0,\mu+1];</tex> при каждом значении <tex>\mu_2</tex> выборки <tex>x^n, y^n</tex> получаются из <tex>x^{n-1}, y^{n-1}</tex> добавлением одного случайного элемента.
 +
===Критерий Краскелла-Уоллиса для независимых выборок===
 +
<tex>x^n \sim F(\mu_1),\;\; y^n \sim F(\mu_2);</tex>
 +
 +
<tex>H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;</tex>
 +
 +
<tex>\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; n=5\,:\,1\,:\,50.</tex>
 +
=====Ахламченкова Ольга=====
 +
<tex>F=N(\mu,1);</tex> при каждом значении <tex>\mu_2</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
=====Голодов Валентин=====
=====Голодов Валентин=====
 +
<tex>F=U[0,\mu+1];</tex> при каждом значении <tex>\mu_2</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
 +
=====Алимбаев Данияр=====
 +
<tex>F=U[0,\mu+1];</tex> при каждом значении <tex>\mu_2</tex> выборки <tex>x^n, y^n</tex> получаются из <tex>x^{n-1}, y^{n-1}</tex> добавлением одного случайного элемента.
-
=====Гордеев Дмитрий=====
+
===Критерий Колмогорова-Смирнова для проверки нормальности===
 +
<tex>x^n</tex> - смесь распределений <tex>N(0,1)</tex> и <tex>U[-\mu,\mu]</tex> с весами <tex>\alpha</tex> и <tex>1-\alpha</tex> соответственно. При генерации выборки используется случайный датчик - если его значение не превосходит <tex>\alpha</tex>, то добавляем в выборку элемент, взятый из нормального распределения, иначе - элемент, взятый из равномерного;
-
=====Гуков Алексей=====
+
<tex>H_0\,:\; x^n\sim \cdot N(0,1), \;\; H_1\,:\; F_n(x)\neq N(0,1);</tex>
 +
<tex>\alpha=0\,:\,0,02\,:\,1; \;\;\; n=10\,:\,5\,:\,250.</tex>
 +
При каждом значении параметров выборки для разных значений <tex>n</tex> генерируются независимо.
 +
=====Толстихин Илья=====
 +
<tex>\mu=1.</tex>
 +
=====Янгиров Ильдар=====
 +
<tex>\mu=2.</tex>
 +
 +
===Критерий хи-квадрат Пирсона для проверки нормальности===
 +
<tex>x^n</tex> - смесь распределений <tex>N(0,1)</tex> и <tex>U[-\mu,\mu]</tex> с весами <tex>\alpha</tex> и <tex>1-\alpha</tex> соответственно. При генерации выборки используется случайный датчик - если его значение не превосходит <tex>\alpha</tex>, то добавляем в выборку элемент, взятый из нормального распределения, иначе - элемент, взятый из равномерного;
 +
 +
<tex>H_0\,:\; x^n\sim \cdot N(0,1), \;\; H_1\,:\; F_n(x)\neq N(0,1);</tex>
 +
 +
<tex>\alpha=0\,:\,0,02\,:\,1; \;\;\; n=10\,:\,5\,:\,250.</tex>
 +
При каждом значении параметров выборки для разных значений <tex>n</tex> генерируются независимо.
=====Дерябин Василий=====
=====Дерябин Василий=====
 +
<tex>\mu=1.</tex>
 +
=====Одинокова Евгения=====
 +
<tex>\mu=2.</tex>
 +
===F-критерий Фишера для проверки равенства дисперсий===
 +
<tex>x^n \sim N(0,\sigma_1),\;\; y^n \sim N(\mu,\sigma_2);</tex>
 +
 +
<tex>H_0\,:\; \sigma_1=\sigma_2, \;\; H_1\,:\; \sigma_1\neq \sigma_2;</tex>
 +
 +
<tex> n=5\,:\,1\,:\,50.</tex>
 +
=====Аманжолов Рустем=====
 +
<tex>\mu=0; \;\;\; \sigma_1=1, \;\; \sigma_2=0.1\,:\,0.1\,:\,4;</tex> при каждом значении <tex>\sigma_2</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
 +
=====Пасконова Ольга=====
 +
<tex>\mu=0; \;\;\; \sigma_1=1, \;\; \sigma_2=0.1\,:\,0.1\,:\,4;</tex> при каждом значении <tex>\sigma_2</tex> выборки <tex>x^n, y^n</tex> получаются из <tex>x^{n-1}, y^{n-1}</tex> добавлением одного случайного элемента.
 +
=====Гордеев Дмитрий=====
 +
<tex>\sigma_1=\sigma_2=1; \;\;\; \mu=0\,:\,0,05\,:\,3;</tex> при каждом значении <tex>\mu</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
 +
=====Найденов Никита=====
 +
<tex>\sigma_1=\sigma_2=1; \;\;\; \mu=0\,:\,0,05\,:\,3;</tex> при каждом значении <tex>\mu</tex> выборки <tex>x^n, y^n</tex> получаются из <tex>x^{n-1}, y^{n-1}</tex> добавлением одного случайного элемента.
 +
 +
= Задание 2. Анализ реальных данных =
 +
Ниже приведены описания анализируемых данных и постановки задач. Сами данные каждый студент может получить по электронной почте сразу после сдачи первого задания. При проведении анализа можно пользоваться любыми доступными программными средствами. Необходимо предоставить подробный письменный отчёт по проведённому исследованию, содержащий выводы и описания каждого этапа анализа - используемые методы, обоснование их применимости, промежуточные результаты вычислений, графики. Помимо выводов, касающихся математических особенностей решения, необходимо включить в отчёт заключения, сформулированные в терминах предметной области, которые могли бы быть понятны гипотетическому заказчику-нематематику.
 +
 +
=== Интеллект и размер головного мозга ===
 +
Исследование проводилось среди студентов психологического факультета крупного университета. Все испытуемые должны были быть правшами, а также не иметь повреждений мозга, эпилепсии, алкоголизма и сердечных заболеваний. Участники предварительного этапа эксперимента прошли несколько IQ-тестов, после чего для дальнейшего участия было отобрано 20 мужчин и 20 женщин, имевших коэффициент интеллекта либо ниже 103, либо выше 130 баллов. Для каждого из отобранных при помощи магнитно-резонансной томографии были получены 18 снимков срезов головного мозга, и общее количество пикселей на всех 18 снимках было принято в качестве меры объёма мозга. Помимо этого, были собраны данные о росте и массе тела испытуемых.
 +
=====Толстихин Илья=====
 +
Проверить наличие взаимосвязи между интеллектом и объёмом головного мозга для всех испытуемых, независимо от пола, затем провести аналогичный анализ отдельно для мужчин и женщин.
 +
=====Осокин Антон=====
 +
Проанализировать, какие из факторов значимо влияют на объём головного мозга. Проверить, по какой из двух групп факторов можно предсказывать объём головного мозга с большей уверенностью - по результатам тестов интеллекта, или по полу, росту и весу.
 +
 +
=== Продолжительность жизни больных онкологическими заболеваниями ===
 +
Выборка состоит из 64 пациентов, у которых был диагностирован неизлечимый рак какого-либо органа. Всем им в качестве поддерживающей терапии был назначен к приёму витамин C (считалось, что он может способствовать выздоровлению раковых больных). Приведены данные об остаточной продолжительности жизни пациентов в днях.
 +
=====Черняев Константин=====
 +
Требуется проверить, отличается ли остаточная продолжительность жизни в зависимости от того, какой орган поражён раковой опухолью. Оценить остаточную продолжительность жизни в каждой из групп (построить точечные, интервальные оценки).
 +
 +
=== Внешний вид и привлекательность самок мечехвостов ===
 +
Изучалось влияние внешних характеристик самок морских ракообразных [http://upload.wikimedia.org/wikipedia/commons/f/f7/Limulus.jpg мечехвостов] на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.
 +
=====Одинокова Евгения=====
 +
Построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.
 +
=====Ломакин Василий=====
 +
Построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.
 +
 +
=== Засеивание облаков и уровень осадков ===
 +
Исследовалось воздействие засеивания облаков на обилие дождей. Измерения проводились в течение 108 периодов на пяти участках земли в Тасмании - участки обозначены в файле как западный, восточный, южный, северный и северо-восточный. В выборке содержатся данные об уровне осадков (в миллиметрах) на каждом из пяти участков, о времени года, к которому относится период, и о том, проводилось ли засеивание.
 +
=====Решетняк Илья=====
 +
Проверить, как засеивание облаков повлияло на уровень осадков в целом по всей выборке. Сделать также выводы об эффективности засеивания отдельно по каждому времени года.
=====Джумабекова Айнагуль=====
=====Джумабекова Айнагуль=====
 +
Проверить, как засеивание облаков повлияло на уровень осадков отдельно по каждому из пяти экспериментальных участков. Одинаково ли проявляется эффект засеивания на каждом из них, или, возможно, он как-то зависит от исходного уровня осадков на участке?
-
=====Дзыба Дмитрий=====
+
=== Отслеживание движений глаз больных шизофренией ===
 +
[[Изображение:Eye tracking.PNG|200px|thumb|Горизонтальное угловое смещение ко времени. А - движение объекта, В - движение глазных яблок при высококачественном слежении, С - при низкокачественном слежении.]]
 +
Исследовалось, как шизофрения влияет на способность слежения за движущейся целью. 43 здоровых испытуемых (22 женщины и 21 мужчина) и 43 больных (13 женщин и 30 мужчин) прошли через серию экспериментов, в которых перед ними был расположен движущийся вправо-влево объект, а инфракрасный датчик считывал движение глазных яблок. Рассматривалось три типа объектов: PS - белый объект, движущийся со скоростью, пропорциональной синусу времени, CS - объект, движущийся по той же траектории, но меняющий свой цвет от белого до синего или оранжевого, TR - белый объект, движущийся с постоянной скоростью, равной максимальной скорости объекта PS. Измерение показателя - отношения скорости глаза к скорости объекта - производилось на 11 последовательных участках траектории, однако из-за моргания в данных есть и многочисленные пропуски. Чем ближе значение показателя к единице, тем точнее слежение.
 +
=====Безродный Богдан=====
 +
Являются ли пропуски в данных систематическими? Есть ли закономерность, связывающая частоту моргания с типом объекта, полом или фактором наличия шизофрении?
 +
=====Дерябин Василий=====
 +
Имеет ли смысл рассматривать одиннадцать показателей точности слежения как временной ряд? Есть ли у точности слежения в рамках одного эксперимента устойчивая динамика? Проверить её наличие отдельно для больных и для здоровых испытуемых.
 +
=====Голодов Валентин=====
 +
Выяснить, есть ли различие между здоровыми и больными шизофренией в способности слежения за движущимся объектом.
 +
=====Гордеев Дмитрий=====
 +
Есть ли значимые различия в точности слежения за объектами различных типов? За каким объектом легче всего следить здоровым людям, и за каким больным шизофренией?
 +
=====Коликова Екатерина=====
 +
Построить функцию, предсказывающую точность слежения в зависимости от пола, типа объекта и наличия болезни.
 +
 
 +
=== Структурно-лингвистические характеристики американского английского ===
 +
Исследование из области корпусной лингвистики. В 1964 году был создан [http://icame.uib.no/brown/bcm.html Брауновский корпус] текстов на американском английском, репрезентативно представлявших состояние языка на тот момент. Корпус состоит из 500 текстов различных жанров: представлена художественная литература и публицистика, с поджанрами в каждой из этих категорий. В 1999 году исследование было повторено на более современном материале. Был создан корпус [http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM FROWN] такой же структуры (такого же объёма, с таким же количеством текстов в каждой категории). В ходе одного из сравнительных исследований оба корпуса текстов были проанализированы при помощи программы [http://betterwriting.net/projects/fed01/dsc_fed01.html DocuScope], оценившей каждый текст по ряду структурных признаков. Чем больше численное значение, присвоенное тексту по какому-либо из признаков, тем сильнее этот признак выражен.
 +
=====Ломакина-Румянцева Екатерина=====
 +
Выяснить, произошли ли с языком за 35 лет структурные изменения, и в каких формах литературы они наиболее значимы.
 +
=====Двойнев Александр=====
 +
Проанализировать структурные различия между языком информативной прозы и языком художественной литературы отдельно по BROWN и FROWN корпусам. Можно ли сказать, что за прошедшие 35 лет эти жанры сблизились или, наоборот, стали больше отличаться по структуре?
 +
=====Аманжолов Рустем=====
 +
Можно ли какие-то из жанров литературы назвать неотличимыми (по выделенным структурным признакам)? Исследовать этот вопрос отдельно по BROWN и FROWN корпусам.
 +
 
 +
=== Оптимальные условия размножения штаммов золотистого стафилококка ===
 +
При подозрении на инфекционное заболевание для правильной постановки диагноза часто бывает важно из взятых у пациентов образцов вырастить как можно более многочисленную колонию бактерий, чтобы её было удобнее исследовать. Считается, что оптимальные параметры для размножения штаммов стафилококка в лабораторных условиях следующие: температура 35 градусов, концентрация триптона в питательном растворе 1.0%, время выдержки 24 часа. Для проверки оптимальности этих условий было проведено 30 экспериментов над пятью различными штаммами стафилококка. Для каждого из экспериментов известны время выдержки, температура, концентрация триптона, а также измеренное по окончании выдержки число колониеобразующих единиц (КОЕ) бактерий каждого штамма.
 +
=====Пасконова Ольга=====
 +
Построить функцию, предсказывающую итоговое суммарное число КОЕ бактерий всех пяти штаммов по времени выдержки, температуре и концентрации триптона в растворе, и определить по ней оптимальные условия размножения стафилококка.
=====Задонский Максим=====
=====Задонский Максим=====
 +
Одинакова ли зависимость итогового числа КОЕ разных штаммов стафилококка от внешних условий?
 +
=== Пассажиры Титаника ===
 +
Приведены данные о 1309 пассажирах Титаника. Для каждого пассажира указано имя, пол, возраст, класс и цена билета, число родственников на борту, и, кроме того, удалось ли ему выжить.
 +
=====Алимбаев Данияр=====
 +
По каким признакам отличаются выжившие пассажиры от погибших?
=====Карпинская Алина=====
=====Карпинская Алина=====
 +
Построить функцию, предсказывающую вероятность выживания пассажира по имеющимся данным.
-
=====Ломакина-Румянцева Екатерина=====
+
=== Рыбы из озера Längelmävesi ===
 +
В ходе исследования 1917 года в финском озере Längelmävesi было поймано и измерено 159 рыб семи различных видов.
 +
=====Нарышкин Андрей=====
 +
Исследовать различия между рыбами разных видов по имеющимся признакам.
 +
=====Задонский Дмитрий=====
 +
Используя данные по виду №7, построить функцию, оценивающую вес рыбы по длине, высоте и толщине. Рассмотреть 3-4 возможные модели, сравнить их между собой.
 +
=====Мягков Артём=====
 +
Известно, что одна из пойманных рыб была дефектной - в её желудке было обнаружено 6 окурков, попавших туда достаточно давно и вызвавших изменения в развитии. Её пропорции отличались от пропорций остальных представителей её вида. Идентифицировать эту рыбу.
-
=====Мягков Артем=====
+
= Задание 3. Написание или доработка wiki-статей =
 +
{{well|'''Некоторые рекомендации'''
-
=====Найденов Никита=====
+
#Образцом оформления статей могут служить: [[Критерий Стьюдента]], [[Критерий Уилкоксона-Манна-Уитни]], [[Проверка статистических гипотез]]. Однако даже этим статьям не хватает наглядности, график кривой распределения и критической области, а также численные примеры в конце явно не помешали бы.
 +
#Старайтесь придерживаться единообразия в структуре статей по статистическим критериям.
 +
#Обязательно посмотрите [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2008|прошлогодние рекомендации по написанию статей к этому курсу]].
 +
#Рекомендуется внизу на данной странице завести список группы ([[Статистический анализ данных (курс лекций, К.В.Воронцов)/2008|как это сделали в прошлом году]]), чтобы все видели, кто какую статью себе взял.
 +
#Убедительная просьба: чтобы чужие люди не редактировали Ваши статьи (прецеденты уже имеются!), вставляйте в конец Вашей статьи шаблон <code><nowiki>{{Задание|ВашЛогин|Vokov|31 декабря 2009}}</nowiki></code>, который выводит следующее предупреждение:
 +
{{Задание|***|Vokov|31 декабря 2009|||uncat}}
-
=====Нарышкин Андрей=====
+
—&nbsp;''[[Участник:Vokov|К.В.Воронцов]] 02:14, 14 ноября 2009 (MSK)''
 +
}}
-
=====Одинокова Евгения=====
+
===Статьи, нуждающиеся в доработке===
 +
{{well|'''Некоторые рекомендации'''
-
=====Осокин Антон=====
+
#Общий критерий при доработке статей: если Вам статья показалась непонятной и пришлось лезть в другие источники, то недостающую информацию надо перенести сюда, и не забыть указать ссылки на источники.
 +
#Если заметите ошибки, опечатки, небрежности в оформлении — исправляйте обязательно!
 +
#Добавление примеров прикладных задач и графических иллюстраций поощряется!
-
=====Пасконова Ольга=====
+
—&nbsp;''[[Участник:Vokov|К.В.Воронцов]] 02:14, 14 ноября 2009 (MSK)''
 +
}}
-
=====Решетняк Илья=====
+
*[[Анализ регрессионных остатков]]: нужны примеры задач, иллюстрации к визуальному анализу, аккуратный список статистических тестов, которые могут использоваться для анализа регрессионных остатков
 +
*[[Гипотеза сдвига]]: список ссылок на статьи по всем параметрическим и непараметрическим критериям, проверяющим гипотезу сдвига
 +
*[[Частная корреляция]]: хороших материалов по этой теме гораздо больше, чем давалось на лекции, хотелось бы найти побольше примеров и контрпримеров из практических задач
 +
*[[Конкордация Кенделла]]: статья оформлена небрежно, надо улучшать изложение, поподробнее описать пример и найти ещё примеры задач
 +
*[[Шаговая регрессия]]: тема очень обширная, нужно добавлять примеры, описание алгоритмов, ссылки на алгоритм Фюрнкранца и т.д... есть много источников на русском
 +
*[[Прогнозирование плотности]]: не входит в программу курса; '''если кто-то сам разберётся, будет оценено высоко'''!
 +
*[[Ротационная панель]]: статья не доработана, материалы по данной теме есть в некоторых учебниках эконометрики последних лет
-
=====Толстихин Илья=====
+
===Новые статьи===
 +
*[[Вложенные модели линейной регрессии]]
 +
*[[Двухфакторный нормальный анализ]]
 +
*[[Параметрические статистические тесты]]
-
=====Янгиров Ильдар=====
+
====Статьи о группах методов или критериев====
 +
{{well|'''Некоторые рекомендации'''
 +
 
 +
# Эти статьи не содержат описаний методов, но в них должны перечисляться ссылки на большое число методов или критериев, объединённых под данным общим названием.
 +
# Должно даваться общее определение из классических источников (например, из энциклопедии теории вероятностей и математической статистики).
 +
# Желательны примеры задач.
 +
# Желательно указывать, чем отличаются различные критерии и методы в данной группе друг от друга, какие есть рекомендации по выбору одного из этих методов.
 +
# Любые сообщаемые факты должны сопровождаться ссылками на источник.
 +
# Помните, что предоставляемая информация должна быть полезна специалистам при решении практических задач.
 +
# Собрать грамотную подборку ссылок (вместо тупого копирования их содержимого) с вашими лаконичными комментариями — это уже очень полезно!
 +
 
 +
—&nbsp;''[[Участник:Vokov|К.В.Воронцов]] 02:14, 14 ноября 2009 (MSK)''
 +
}}
 +
 
 +
 
 +
*[[Выборочный анализ]]
 +
 
 +
 
 +
====Статьи о критериях====
 +
{{well|'''Некоторые рекомендации'''
 +
 
 +
У многих статей о критериях, не перечисленных ниже, не хватает графика функции распределения статистики с выделенной критической областью, пример как это сделано в статье [[Критерий хи-квадрат]]. Добавление в них картинок тоже поощряется!
 +
 
 +
—&nbsp;''[[Участник:Vokov|К.В.Воронцов]] 02:14, 14 ноября 2009 (MSK)''
 +
}}
 +
 
 +
 
 +
====Статьи о распределениях====
 +
{{well|'''Некоторые рекомендации'''
 +
 
 +
Эти статьи есть в Большой Википедии. Работа по переносу контента тоже нужная, но нетрудная и потому оценивается невысоко
 +
 
 +
—&nbsp;''[[Участник:Vokov|К.В.Воронцов]] 02:14, 14 ноября 2009 (MSK)''
 +
}}
 +
 
 +
== Распределение статей по студентам ==
 +
 
 +
=== [[Участник:Василий_Ломакин|Ломакин Василий]] ===
 +
*[[Коэффициент корреляции Кенделла]], [[Коэффициент корреляции Спирмена]]: в этих двух статьях остро не хватает примеров
 +
*[[Критерий Уилкоксона двухвыборочный]]
 +
*[[Критерий Уилкоксона для связных выборок]]
 +
 
 +
=== [[Участник:Tolstikhin|Толстихин Илья]] ===
 +
*[[Эмпирическое распределение]]: новая статья
 +
*[[Ковариационный анализ]]: аккуратнее написать постановки задач, найти интересные примеры приложений, добавить перечень критериев (в виде списка ссылок)
 +
*[[Непараметрическая регрессия: ядерное сглаживание]]: статья оформлена небрежно, имеются указания по её доработке
 +
*[[Критерий Лемана-Розенблатта]] (на лекции не рассказывался)
 +
 
 +
=== [[Участник:Пасконова Ольга|Пасконова Ольга]] ===
 +
*[[Двухфакторная непараметрическая модель]]: новая статья
 +
*[[Дисперсионный анализ]]: общие определения, примеры задач и перечень методов (в виде списка ссылок)
 +
 
 +
=== [[Участник:Lr2k|Ломакина-Румянцева Екатерина]] ===
 +
*[[Однофакторная параметрическая модель]]: новая статья
 +
*[[Однофакторная непараметрическая модель]]: новая статья
 +
 
 +
=== [[Участник:slimper| Решетняк Илья Михайлович]] ===
 +
*[[Критерии нормальности]]=[[Критерий нормальности]]: общие определения, примеры задач и перечень критериев (в виде списка ссылок), желательно привести сравнительную таблицу мощностей критериев нормальности из Кобзаря
 +
*[[Ранговые критерии]]=[[Ранговый критерий]]: общие определения и перечень критериев (в виде списка ссылок)
 +
*[[Критерий Фишера]]: примеры и более точные ссылки; на самом деле критериев Фишера есть много разных, в данной статье никак не затронут критерий Фишера для выбора значимого набора признаков в линейной регрессии
 +
*[[Критерий Краскела-Уоллиса]]: больше интересных примеров и более точные ссылки
 +
 
 +
=== [[Участник:Джумабекова Айнагуль|Джумабекова Айнагуль]] ===
 +
*[[Стратификация]]: новая статья
 +
*[[Робастность]]=[[Робастное оценивание]]: новая статья
 +
*[[Критерий Джонкхиера]]: больше интересных примеров и более точные ссылки
 +
 
 +
=== [[Участник:Валентин Голодов|Валентин Голодов]] ===
 +
*[[Простой случайный выбор]]: новая статья
 +
*[[Алгоритм LOWESS]]: статья оформлена небрежно, имеются указания по её доработке
 +
*[[Непараметрическая регрессия]]: конкретизировать, добавить примеры, ссылки на методы
 +
 
 +
=== [[Участник:Коликова Катя|Коликова Екатерина]] ===
 +
*[[Модель Тригга-Лича]]: новая статья
 +
*[[Пропорциональный выбор]]: новая статья
 +
 
 +
=== [[Участник:Anton|Осокин Антон]] ===
 +
*[[Критерии однородности]]=[[Критерий однородности]]: общие определения, примеры задач и перечень критериев (в виде списка ссылок)
 +
*[[Критерии согласия]]=[[Критерий согласия]]: общие определения, примеры задач и перечень критериев (в виде списка ссылок)
 +
*[[Метод LSD]]: описать пример более подробно, найти ещё три-четыре примера применения, добавить более точные ссылки
 +
 
 +
=== [[Участник:Bogdan|Безродный Богдан]] ===
 +
*[[Распределение Фишера]]
 +
*[[Распределение хи-квадрат]]
 +
*[[Распределение Стьюдента]]
 +
*[[Нормальное распределение]]=[[Нормальное распределение|Гауссовское распределение]]=[[Нормальное распределение|Многомерное нормальное распределение]]=[[Нормальное распределение|Одномерное нормальное распределение]], [[Нормальное распределение|Нормальная выборка]]
 +
 
 +
=== [[Участник:Евгения Одинокова|Одинокова Евгения]]===
 +
*[[Адаптивные методы прогнозирования временных рядов]]=[[Адаптивные методы краткосрочного прогнозирования]]: список ссылок на методы, на основе книги Лукашина
 +
*[[Следящий контрольный сигнал]]: добавить ссылок на другие разделы по адаптивным методам прогнозирования временных рядов
 +
*[[Медианный критерий]]: оформить аналогично остальным статьям по критериям
 +
 
 +
=== [[Участник:Alina|Карпинская Алина]]===
 +
*[[Гипотеза сдвига]]: список ссылок на статьи по всем параметрическим и непараметрическим критериям, проверяющим гипотезу сдвига
 +
*[[Частная корреляция]]: хороших материалов по этой теме гораздо больше, чем давалось на лекции, хотелось бы найти побольше примеров и контрпримеров из практических задач
 +
*[[Прогнозирование плотности]]: не входит в программу курса; '''если кто-то сам разберётся, будет оценено высоко'''!
 +
 
 +
=== [[Участник:МягковАртем|Мягков Артем]]===
 +
*[[Адаптация параметров адаптации]]
 +
*[[Непараметрические статистические тесты]]
 +
 
 +
=== [[Участник:Аманжолов Рустем|Аманжолов Рустем]]===
 +
*[[Выборочный контроль качества]]:новая статья
 +
 
 +
[[Категория:Учебные курсы]]

Текущая версия

Содержание

Задание 1. Исследование статистических критериев на модельных данных

Необходимо провести исследование одного из классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо сгенерировать одну или несколько выборок из указанного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. При этом, в зависимости от индивидуальных особенностей задания, выборки могут как генерироваться заново для каждого значения объёма выборки n, так и образовываться путём добавления одного элемента к уже имеющейся выборке объёма n-1. По результатам расчётов необходимо построить следующие графики:

  • график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента (1 балл);
  • график зависимости достигаемого уровня значимости от значений параметров, усреднённого по нескольким десяткам экспериментов (+1 балл);
  • график с эмпирическими оценками мощности критерия для разных значений параметров (+1 балл).

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся k раз для каждого набора значений параметра, и в m из k случаев гипотеза была отвергнута на некотором фиксированном уровне значимости \alpha (примем \alpha=0.05), оценкой мощности будет отношение m/k.

Необходимо сдать: выполненный в LaTex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т.д.), а также *.m-файл.

Пример выполнения задания

Исследуем поведение классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига. x^n = (x_1,\ldots,x_n)\sim N(\mu_1,\sigma),\;\; y^n = (y_1,\ldots,y_n)\sim N(\mu_2,\sigma);

H_0\,:\; \mu_1=\mu_2,

H_1\,:\; \mu_1\neq\mu_2.

Параметры задачи принимают следующие значения:

\sigma = 1; \;\;\; \mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\;  n=5\,:\,1\,:\,50.

При каждом значении \mu_2 выборки для разных значений n генерируются независимо.

График значений достигаемого уровня значимости при однократной генерации выборок:

График значений достигаемого уровня значимости, усрёднённых по 100 экспериментам:

График значений эмпирических оценок мощности критерия при проведении 100 экспериментов:

Индивидуальные параметры задания

Одновыборочный критерий Стьюдента

x^n \sim N(\mu,1);

H_0\,:\; \mu=0, \;\; H_1\,:\; \mu\neq 0;

\mu=0\,:\,0,05\,:\,3; \;\;\;  n=5\,:\,1\,:\,50.

Безродный Богдан

При каждом значении \mu выборки для разных значений n генерируются независимо.

Двойнев Александр

При каждом значении \mu выборка x^n получается из x^{n-1} добавлением одного случайного элемента.

Двухвыборочный критерий Стьюдента для независимых выборок

x^n \sim N(\mu_1,\sigma_1),\;\; y^n \sim N(\mu_2,\sigma_2);

H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;

 n=5\,:\,1\,:\,50.

Коликова Екатерина

\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; \sigma_1=\sigma_2=1; при каждом значении \mu_2 выборки x^n, y^n получаются из x^{n-1}, y^{n-1} добавлением одного случайного элемента.

Черняев Константин

\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; \sigma_1=\sigma_2=1; при каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Задонский Дмитрий

\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; \sigma_1=1;\;\;\sigma_2=2; при каждом значении \mu_2 выборки x^n, y^n получаются из x^{n-1}, y^{n-1} добавлением одного случайного элемента.

Ломакин Василий

\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; \sigma_1=1;\;\;\sigma_2=2; при каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Гуков Алексей

\mu_1=\mu_2=0; \;\;\; \sigma_1=1;\;\;\sigma_2=0.1\,:\,0.1\,:\,4; при каждом значении \sigma_2 выборки x^n, y^n получаются из x^{n-1}, y^{n-1} добавлением одного случайного элемента.

Решетняк Илья

\mu_1=\mu_2=0; \;\;\; \sigma_1=1;\;\;\sigma_2=0.1\,:\,0.1\,:\,4; при каждом значении \sigma_2 выборки для разных значений n генерируются независимо.

Двухвыборочный критерий Стьюдента для связных выборок (случай парных повторных наблюдений)

x^n \sim N(\mu_1,1),\;\; y^n \sim N(\mu_2,1);

H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;

\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\;  n=5\,:\,1\,:\,50.

Дзыба Дмитрий

При каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Осокин Антон

При каждом значении \mu_2 выборки x^n, y^n получаются из x^{n-1}, y^{n-1} добавлением одного случайного элемента.

Одновыборочный критерий Уилкоксона

x^n \sim F(\mu);

H_0\,:\; \mu=0, \;\; H_1\,:\; \mu\neq 0;

\mu=0\,:\,0,05\,:\,3; \;\;\;  n=5\,:\,1\,:\,50.

Задонский Максим

F(\mu)=N(\mu,1); при каждом значении \mu выборки для разных значений n генерируются независимо.

Карпинская Алина

F(\mu)=N(\mu,1); при каждом значении \mu выборка x^n получается из x^{n-1} добавлением одного случайного элемента.

Нарышкин Андрей

F(\mu)=U[\mu-3,\mu]; при каждом значении \mu выборки для разных значений n генерируются независимо.

Вишняков Святослав

F(\mu)=U[\mu-3,\mu]; при каждом значении \mu выборка x^n получается из x^{n-1} добавлением одного случайного элемента.

Двухвыборочный критерий Уилкоксона для связных выборок (случай парных повторных наблюдений)

x^n \sim F(\mu_1),\;\; y^n \sim F(\mu_2);

H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;

\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\;  n=5\,:\,1\,:\,50.

Гикал Александр

F=N(\mu,1); при каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Ломакина-Румянцева Екатерина

F=N(\mu,1); при каждом значении \mu_2 выборки x^n, y^n получаются из x^{n-1}, y^{n-1} добавлением одного случайного элемента.

Джумабекова Айнагуль

F=U[0,\mu+1]; при каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Мягков Артем

F=U[0,\mu+1]; при каждом значении \mu_2 выборки x^n, y^n получаются из x^{n-1}, y^{n-1} добавлением одного случайного элемента.

Критерий Краскелла-Уоллиса для независимых выборок

x^n \sim F(\mu_1),\;\; y^n \sim F(\mu_2);

H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;

\mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\;  n=5\,:\,1\,:\,50.

Ахламченкова Ольга

F=N(\mu,1); при каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Голодов Валентин

F=U[0,\mu+1]; при каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Алимбаев Данияр

F=U[0,\mu+1]; при каждом значении \mu_2 выборки x^n, y^n получаются из x^{n-1}, y^{n-1} добавлением одного случайного элемента.

Критерий Колмогорова-Смирнова для проверки нормальности

x^n - смесь распределений N(0,1) и U[-\mu,\mu] с весами \alpha и 1-\alpha соответственно. При генерации выборки используется случайный датчик - если его значение не превосходит \alpha, то добавляем в выборку элемент, взятый из нормального распределения, иначе - элемент, взятый из равномерного;

H_0\,:\; x^n\sim \cdot N(0,1), \;\; H_1\,:\; F_n(x)\neq N(0,1);

\alpha=0\,:\,0,02\,:\,1; \;\;\;  n=10\,:\,5\,:\,250. При каждом значении параметров выборки для разных значений n генерируются независимо.

Толстихин Илья

\mu=1.

Янгиров Ильдар

\mu=2.

Критерий хи-квадрат Пирсона для проверки нормальности

x^n - смесь распределений N(0,1) и U[-\mu,\mu] с весами \alpha и 1-\alpha соответственно. При генерации выборки используется случайный датчик - если его значение не превосходит \alpha, то добавляем в выборку элемент, взятый из нормального распределения, иначе - элемент, взятый из равномерного;

H_0\,:\; x^n\sim \cdot N(0,1), \;\; H_1\,:\; F_n(x)\neq N(0,1);

\alpha=0\,:\,0,02\,:\,1; \;\;\;  n=10\,:\,5\,:\,250. При каждом значении параметров выборки для разных значений n генерируются независимо.

Дерябин Василий

\mu=1.

Одинокова Евгения

\mu=2.

F-критерий Фишера для проверки равенства дисперсий

x^n \sim N(0,\sigma_1),\;\; y^n \sim N(\mu,\sigma_2);

H_0\,:\; \sigma_1=\sigma_2, \;\; H_1\,:\; \sigma_1\neq \sigma_2;

 n=5\,:\,1\,:\,50.

Аманжолов Рустем

\mu=0; \;\;\; \sigma_1=1, \;\; \sigma_2=0.1\,:\,0.1\,:\,4; при каждом значении \sigma_2 выборки для разных значений n генерируются независимо.

Пасконова Ольга

\mu=0; \;\;\; \sigma_1=1, \;\; \sigma_2=0.1\,:\,0.1\,:\,4; при каждом значении \sigma_2 выборки x^n, y^n получаются из x^{n-1}, y^{n-1} добавлением одного случайного элемента.

Гордеев Дмитрий

\sigma_1=\sigma_2=1; \;\;\; \mu=0\,:\,0,05\,:\,3; при каждом значении \mu выборки для разных значений n генерируются независимо.

Найденов Никита

\sigma_1=\sigma_2=1; \;\;\; \mu=0\,:\,0,05\,:\,3; при каждом значении \mu выборки x^n, y^n получаются из x^{n-1}, y^{n-1} добавлением одного случайного элемента.

Задание 2. Анализ реальных данных

Ниже приведены описания анализируемых данных и постановки задач. Сами данные каждый студент может получить по электронной почте сразу после сдачи первого задания. При проведении анализа можно пользоваться любыми доступными программными средствами. Необходимо предоставить подробный письменный отчёт по проведённому исследованию, содержащий выводы и описания каждого этапа анализа - используемые методы, обоснование их применимости, промежуточные результаты вычислений, графики. Помимо выводов, касающихся математических особенностей решения, необходимо включить в отчёт заключения, сформулированные в терминах предметной области, которые могли бы быть понятны гипотетическому заказчику-нематематику.

Интеллект и размер головного мозга

Исследование проводилось среди студентов психологического факультета крупного университета. Все испытуемые должны были быть правшами, а также не иметь повреждений мозга, эпилепсии, алкоголизма и сердечных заболеваний. Участники предварительного этапа эксперимента прошли несколько IQ-тестов, после чего для дальнейшего участия было отобрано 20 мужчин и 20 женщин, имевших коэффициент интеллекта либо ниже 103, либо выше 130 баллов. Для каждого из отобранных при помощи магнитно-резонансной томографии были получены 18 снимков срезов головного мозга, и общее количество пикселей на всех 18 снимках было принято в качестве меры объёма мозга. Помимо этого, были собраны данные о росте и массе тела испытуемых.

Толстихин Илья

Проверить наличие взаимосвязи между интеллектом и объёмом головного мозга для всех испытуемых, независимо от пола, затем провести аналогичный анализ отдельно для мужчин и женщин.

Осокин Антон

Проанализировать, какие из факторов значимо влияют на объём головного мозга. Проверить, по какой из двух групп факторов можно предсказывать объём головного мозга с большей уверенностью - по результатам тестов интеллекта, или по полу, росту и весу.

Продолжительность жизни больных онкологическими заболеваниями

Выборка состоит из 64 пациентов, у которых был диагностирован неизлечимый рак какого-либо органа. Всем им в качестве поддерживающей терапии был назначен к приёму витамин C (считалось, что он может способствовать выздоровлению раковых больных). Приведены данные об остаточной продолжительности жизни пациентов в днях.

Черняев Константин

Требуется проверить, отличается ли остаточная продолжительность жизни в зависимости от того, какой орган поражён раковой опухолью. Оценить остаточную продолжительность жизни в каждой из групп (построить точечные, интервальные оценки).

Внешний вид и привлекательность самок мечехвостов

Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.

Одинокова Евгения

Построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.

Ломакин Василий

Построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.

Засеивание облаков и уровень осадков

Исследовалось воздействие засеивания облаков на обилие дождей. Измерения проводились в течение 108 периодов на пяти участках земли в Тасмании - участки обозначены в файле как западный, восточный, южный, северный и северо-восточный. В выборке содержатся данные об уровне осадков (в миллиметрах) на каждом из пяти участков, о времени года, к которому относится период, и о том, проводилось ли засеивание.

Решетняк Илья

Проверить, как засеивание облаков повлияло на уровень осадков в целом по всей выборке. Сделать также выводы об эффективности засеивания отдельно по каждому времени года.

Джумабекова Айнагуль

Проверить, как засеивание облаков повлияло на уровень осадков отдельно по каждому из пяти экспериментальных участков. Одинаково ли проявляется эффект засеивания на каждом из них, или, возможно, он как-то зависит от исходного уровня осадков на участке?

Отслеживание движений глаз больных шизофренией

Горизонтальное угловое смещение ко времени. А - движение объекта, В - движение глазных яблок при высококачественном слежении, С - при низкокачественном слежении.
Горизонтальное угловое смещение ко времени. А - движение объекта, В - движение глазных яблок при высококачественном слежении, С - при низкокачественном слежении.

Исследовалось, как шизофрения влияет на способность слежения за движущейся целью. 43 здоровых испытуемых (22 женщины и 21 мужчина) и 43 больных (13 женщин и 30 мужчин) прошли через серию экспериментов, в которых перед ними был расположен движущийся вправо-влево объект, а инфракрасный датчик считывал движение глазных яблок. Рассматривалось три типа объектов: PS - белый объект, движущийся со скоростью, пропорциональной синусу времени, CS - объект, движущийся по той же траектории, но меняющий свой цвет от белого до синего или оранжевого, TR - белый объект, движущийся с постоянной скоростью, равной максимальной скорости объекта PS. Измерение показателя - отношения скорости глаза к скорости объекта - производилось на 11 последовательных участках траектории, однако из-за моргания в данных есть и многочисленные пропуски. Чем ближе значение показателя к единице, тем точнее слежение.

Безродный Богдан

Являются ли пропуски в данных систематическими? Есть ли закономерность, связывающая частоту моргания с типом объекта, полом или фактором наличия шизофрении?

Дерябин Василий

Имеет ли смысл рассматривать одиннадцать показателей точности слежения как временной ряд? Есть ли у точности слежения в рамках одного эксперимента устойчивая динамика? Проверить её наличие отдельно для больных и для здоровых испытуемых.

Голодов Валентин

Выяснить, есть ли различие между здоровыми и больными шизофренией в способности слежения за движущимся объектом.

Гордеев Дмитрий

Есть ли значимые различия в точности слежения за объектами различных типов? За каким объектом легче всего следить здоровым людям, и за каким больным шизофренией?

Коликова Екатерина

Построить функцию, предсказывающую точность слежения в зависимости от пола, типа объекта и наличия болезни.

Структурно-лингвистические характеристики американского английского

Исследование из области корпусной лингвистики. В 1964 году был создан Брауновский корпус текстов на американском английском, репрезентативно представлявших состояние языка на тот момент. Корпус состоит из 500 текстов различных жанров: представлена художественная литература и публицистика, с поджанрами в каждой из этих категорий. В 1999 году исследование было повторено на более современном материале. Был создан корпус FROWN такой же структуры (такого же объёма, с таким же количеством текстов в каждой категории). В ходе одного из сравнительных исследований оба корпуса текстов были проанализированы при помощи программы DocuScope, оценившей каждый текст по ряду структурных признаков. Чем больше численное значение, присвоенное тексту по какому-либо из признаков, тем сильнее этот признак выражен.

Ломакина-Румянцева Екатерина

Выяснить, произошли ли с языком за 35 лет структурные изменения, и в каких формах литературы они наиболее значимы.

Двойнев Александр

Проанализировать структурные различия между языком информативной прозы и языком художественной литературы отдельно по BROWN и FROWN корпусам. Можно ли сказать, что за прошедшие 35 лет эти жанры сблизились или, наоборот, стали больше отличаться по структуре?

Аманжолов Рустем

Можно ли какие-то из жанров литературы назвать неотличимыми (по выделенным структурным признакам)? Исследовать этот вопрос отдельно по BROWN и FROWN корпусам.

Оптимальные условия размножения штаммов золотистого стафилококка

При подозрении на инфекционное заболевание для правильной постановки диагноза часто бывает важно из взятых у пациентов образцов вырастить как можно более многочисленную колонию бактерий, чтобы её было удобнее исследовать. Считается, что оптимальные параметры для размножения штаммов стафилококка в лабораторных условиях следующие: температура 35 градусов, концентрация триптона в питательном растворе 1.0%, время выдержки 24 часа. Для проверки оптимальности этих условий было проведено 30 экспериментов над пятью различными штаммами стафилококка. Для каждого из экспериментов известны время выдержки, температура, концентрация триптона, а также измеренное по окончании выдержки число колониеобразующих единиц (КОЕ) бактерий каждого штамма.

Пасконова Ольга

Построить функцию, предсказывающую итоговое суммарное число КОЕ бактерий всех пяти штаммов по времени выдержки, температуре и концентрации триптона в растворе, и определить по ней оптимальные условия размножения стафилококка.

Задонский Максим

Одинакова ли зависимость итогового числа КОЕ разных штаммов стафилококка от внешних условий?

Пассажиры Титаника

Приведены данные о 1309 пассажирах Титаника. Для каждого пассажира указано имя, пол, возраст, класс и цена билета, число родственников на борту, и, кроме того, удалось ли ему выжить.

Алимбаев Данияр

По каким признакам отличаются выжившие пассажиры от погибших?

Карпинская Алина

Построить функцию, предсказывающую вероятность выживания пассажира по имеющимся данным.

Рыбы из озера Längelmävesi

В ходе исследования 1917 года в финском озере Längelmävesi было поймано и измерено 159 рыб семи различных видов.

Нарышкин Андрей

Исследовать различия между рыбами разных видов по имеющимся признакам.

Задонский Дмитрий

Используя данные по виду №7, построить функцию, оценивающую вес рыбы по длине, высоте и толщине. Рассмотреть 3-4 возможные модели, сравнить их между собой.

Мягков Артём

Известно, что одна из пойманных рыб была дефектной - в её желудке было обнаружено 6 окурков, попавших туда достаточно давно и вызвавших изменения в развитии. Её пропорции отличались от пропорций остальных представителей её вида. Идентифицировать эту рыбу.

Задание 3. Написание или доработка wiki-статей

Некоторые рекомендации
  1. Образцом оформления статей могут служить: Критерий Стьюдента, Критерий Уилкоксона-Манна-Уитни, Проверка статистических гипотез. Однако даже этим статьям не хватает наглядности, график кривой распределения и критической области, а также численные примеры в конце явно не помешали бы.
  2. Старайтесь придерживаться единообразия в структуре статей по статистическим критериям.
  3. Обязательно посмотрите прошлогодние рекомендации по написанию статей к этому курсу.
  4. Рекомендуется внизу на данной странице завести список группы (как это сделали в прошлом году), чтобы все видели, кто какую статью себе взял.
  5. Убедительная просьба: чтобы чужие люди не редактировали Ваши статьи (прецеденты уже имеются!), вставляйте в конец Вашей статьи шаблон {{Задание|ВашЛогин|Vokov|31 декабря 2009}}, который выводит следующее предупреждение:
Данная статья является непроверенным учебным заданием.
Студент: Участник:***
Преподаватель: Участник:Vokov
Срок: 31 декабря 2009

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


— К.В.Воронцов 02:14, 14 ноября 2009 (MSK)


Статьи, нуждающиеся в доработке

Некоторые рекомендации
  1. Общий критерий при доработке статей: если Вам статья показалась непонятной и пришлось лезть в другие источники, то недостающую информацию надо перенести сюда, и не забыть указать ссылки на источники.
  2. Если заметите ошибки, опечатки, небрежности в оформлении — исправляйте обязательно!
  3. Добавление примеров прикладных задач и графических иллюстраций поощряется!

— К.В.Воронцов 02:14, 14 ноября 2009 (MSK)


  • Анализ регрессионных остатков: нужны примеры задач, иллюстрации к визуальному анализу, аккуратный список статистических тестов, которые могут использоваться для анализа регрессионных остатков
  • Гипотеза сдвига: список ссылок на статьи по всем параметрическим и непараметрическим критериям, проверяющим гипотезу сдвига
  • Частная корреляция: хороших материалов по этой теме гораздо больше, чем давалось на лекции, хотелось бы найти побольше примеров и контрпримеров из практических задач
  • Конкордация Кенделла: статья оформлена небрежно, надо улучшать изложение, поподробнее описать пример и найти ещё примеры задач
  • Шаговая регрессия: тема очень обширная, нужно добавлять примеры, описание алгоритмов, ссылки на алгоритм Фюрнкранца и т.д... есть много источников на русском
  • Прогнозирование плотности: не входит в программу курса; если кто-то сам разберётся, будет оценено высоко!
  • Ротационная панель: статья не доработана, материалы по данной теме есть в некоторых учебниках эконометрики последних лет

Новые статьи

Статьи о группах методов или критериев

Некоторые рекомендации
  1. Эти статьи не содержат описаний методов, но в них должны перечисляться ссылки на большое число методов или критериев, объединённых под данным общим названием.
  2. Должно даваться общее определение из классических источников (например, из энциклопедии теории вероятностей и математической статистики).
  3. Желательны примеры задач.
  4. Желательно указывать, чем отличаются различные критерии и методы в данной группе друг от друга, какие есть рекомендации по выбору одного из этих методов.
  5. Любые сообщаемые факты должны сопровождаться ссылками на источник.
  6. Помните, что предоставляемая информация должна быть полезна специалистам при решении практических задач.
  7. Собрать грамотную подборку ссылок (вместо тупого копирования их содержимого) с вашими лаконичными комментариями — это уже очень полезно!

— К.В.Воронцов 02:14, 14 ноября 2009 (MSK)




Статьи о критериях

Некоторые рекомендации

У многих статей о критериях, не перечисленных ниже, не хватает графика функции распределения статистики с выделенной критической областью, пример как это сделано в статье Критерий хи-квадрат. Добавление в них картинок тоже поощряется!

— К.В.Воронцов 02:14, 14 ноября 2009 (MSK)



Статьи о распределениях

Некоторые рекомендации

Эти статьи есть в Большой Википедии. Работа по переносу контента тоже нужная, но нетрудная и потому оценивается невысоко

— К.В.Воронцов 02:14, 14 ноября 2009 (MSK)


Распределение статей по студентам

Ломакин Василий

Толстихин Илья

Пасконова Ольга

Ломакина-Румянцева Екатерина

Решетняк Илья Михайлович

Джумабекова Айнагуль

Валентин Голодов

Коликова Екатерина

Осокин Антон

Безродный Богдан

Одинокова Евгения

Карпинская Алина

  • Гипотеза сдвига: список ссылок на статьи по всем параметрическим и непараметрическим критериям, проверяющим гипотезу сдвига
  • Частная корреляция: хороших материалов по этой теме гораздо больше, чем давалось на лекции, хотелось бы найти побольше примеров и контрпримеров из практических задач
  • Прогнозирование плотности: не входит в программу курса; если кто-то сам разберётся, будет оценено высоко!

Мягков Артем

Аманжолов Рустем

Личные инструменты