Байесовские методы машинного обучения (курс лекций, Д.П. Ветров, Д.А. Кропотов)/2011/Задание 1

Материал из MachineLearning.

(Различия между версиями)

Версия 17:15, 27 сентября 2011

Основная статья: Байесовские методы машинного обучения (курс лекций, Д.П. Ветров, Д.А. Кропотов)

Начало выполнения задания: 28 сентября 2011 г.
Срок сдачи: 11 октября 2011 г., 23:59.

Рассмотрим модель посещаемости студентами одного курса лекции по спецкурсу. Пусть аудитория данного спецкурса состоит из студентов профильной кафедры, а также студентов других кафедр. Обозначим через $a$ количество студентов, распределившихся на профильную кафедру, а через $b$ — количество студентов других кафедр на курсе. Пусть студенты профильной кафедры посещают спецкурс с некоторой вероятностью $p_1$ , а студенты остальных кафедр — с вероятностью $p_2$ . Обозначим через $c$ количество студентов на данной лекции. Тогда случайная величина $c|a,b$ есть сумма двух случайных величин, распределенных по биномиальному закону $B(a,p_1)$ и $B(b,p_2)$ соответственно. Пусть далее на лекции по спецкурсу ведется запись студентов. При этом каждый студент записывается сам, а также, быть может, записывает своего товарища, которого на лекции на самом деле нет (просьба не воспринимать это как руководство к действию в реальности!!). Пусть студент записывает своего товарища с некоторой вероятностью $p_3$ . Обозначим через $d$ общее количество записавшихся на данной лекции. Тогда случайная величина $d|c$ представляет собой сумму $c$ и случайной величины, распределенной по биномиальному закону $B(c,p_3)$ . Для завершения задания вероятностной модели осталось определить априорные вероятности для $a$ и для $b$ . Пусть обе эти величины распределены равномерно в своих интервалах $[a_{min},a_{max}]$ и $[b_{min},b_{max}]$ . Таким образом, мы определили следующую вероятностную модель:
Модель 1

$p(a,b,c,d)=p(d|c)p(c|a,b)p(a)p(b)$ ,

$d|c \sim c + B(c,p_3)$ ,
$c|a,b \sim B(a,p_1) + B(b,p_2)$ ,
$a \sim R[a_{min},a_{max}]$ ,
$b \sim R[b_{min},b_{max}]$ .

Графическая модель для вероятностной модели 1

Рассмотрим несколько упрощенную версию модели 1. Известно, что биномиальное распределение $B(n,p)$ при большом количестве испытаний и маленькой вероятности успеха может быть с высокой точностью приближено пуассоновским распределением $Poiss(\lambda)$ с $\lambda = np$ . Известно также, что сумма двух пуассоновских распределений с параметрами $\lambda_1$ и $\lambda_2$ есть пуассоновское распределение с параметром $\lambda_1+\lambda_2$ . Таким образом, мы можем сформулировать вероятностную модель, которая является приближенной версией модели 1:
Модель 2
$p(a,b,c,d)=p(d|c)p(c|a,b)p(a)p(b)$ ,
$d|c \sim c + B(c,p_3)$ ,
$c|a,b \sim Poiss(ap_1+bp_2)$ ,
$a \sim R[a_{min},a_{max}]$ ,
$b \sim R[b_{min},b_{max}]$ .

Рассмотрим теперь модель посещаемости нескольких лекций спецкурса. Будем считать, что посещаемости отдельных лекций являются независимыми. Тогда:
Модель 3

$p(a,b,c_1,\dots,c_N,d_1,\dots,d_N)=\prod_{n=1}^Np(d_n|c_n)p(c_n|a,b)p(a)p(b)$ ,

$d_n|c_n \sim c_n + B(c_n,p_3)$ ,
$c_n|a,b \sim B(a,p_1) + B(b,p_2)$ ,
$a \sim R[a_{min},a_{max}]$ ,
$b \sim R[b_{min},b_{max}]$ .

Графическая модель для вероятностной модели 3

По аналогии с моделью 2 можно сформулировать упрощенную модель для модели 3:
Модель 4
$p(a,b,c_1,\dots,c_N,d_1,\dots,d_N)=\prod_{n=1}^Np(d_n|c_n)p(c_n|a,b)p(a)p(b)$ ,
$d_n|c_n \sim c_n + B(c_n,p_3)$ ,
$c_n|a,b \sim Poiss(ap_1+bp_2)$ ,
$a \sim R[a_{min},a_{max}]$ ,
$b \sim R[b_{min},b_{max}]$ .

Задание состоит из трех вариантов. Распределение студентов по вариантам см. ниже.

Вариант 1

Рассматривается модель 2 с параметрами $a_{min}=15, a_{max}=30, b_{min}=250, b_{max}=350, p_1 = 0.5, p_2 = 0.05, p_3 = 0.5$ . Провести на компьютере следующие исследования:

Найти математические ожидания и дисперсии априорных распределений для всех параметров $a, b, c, d$ .
Пронаблюдать, как происходит уточнение прогноза для величины $c$ по мере прихода новой косвенной информации. Для этого построить графики и найти мат.ожидание и дисперсию для распределений $p(c), p(c|b), p(c|a,b), p(c|a,b,d)$ при параметрах $a,b,d$ , равных мат.ожиданиям своих априорных распределений, округленных до ближайшего целого.
Определить, какая из величин $a,b,d$ вносит больший вклад в уточнение прогноза для величины $c$ (в смысле дисперсии распределения). Для этого убедиться в том, что $\mathbb{D}[c|d]<\mathbb{D}[c|b]$ и $\mathbb{D}[c|d]<\mathbb{D}[c|a]$ для любых допустимых значений $a,b,d$ . Найти множество точек $(a,b)$ таких, что $\mathbb{D}[c|b]<\mathbb{D}[c|a]$ . Являются ли множества $\{(a,b)|\mathbb{D}[c|b]<\mathbb{D}[c|a]\}$ и $\{(a,b)|\mathbb{D}[c|b]\ge\mathbb{D}[c|a]\}$ линейно разделимыми?
Провести временные замеры по оценке всех необходимых распределений $p(c),p(c|a),p(c|b),p(c|d),p(c|a,b),p(c|a,b,d),p(d)$ .

Взять в качестве диапазона допустимых значений для величины $c$ интервал $[0,a_{max}+b_{max}]$ , а для величины $d$ — интервал $[0,2*(a_{max}+b_{max})]$ .

Для студентов 3 курса и выше: при оценке выполнения задания будет учитываться эффективность программного кода. В частности, временные затраты на расчет отдельного распределения не должны превышать одной секунды.

Для студентов 4 курса и выше: необходимо дополнительно провести все исследования для точной модели 1 и сравнить результаты с аналогичными для модели 2. Привести пример оценки параметра, в котором разница между моделью 1 и 2 проявляется в большой степени.

Вариант 2

Найти математические ожидания и дисперсии априорных распределений для всех параметров $a, b, c, d$ .
Пронаблюдать, как происходит уточнение прогноза для величины $b$ по мере прихода новой косвенной информации. Для этого построить графики и найти мат.ожидание и дисперсию для распределений $p(b), p(b|a), p(b|a,d)$ при параметрах $a,d$ , равных мат.ожиданиям своих априорных распределений, округленных до ближайшего целого.
Определить, при каких соотношениях параметров $p_1,p_2$ изменяется относительная важность параметров $a,b$ для оценки величины $c$ . Для этого найти множество точек $\{(p_1,p_2)|\mathbb{D}[c|b]<\mathbb{D}[c|a]\}$ при $a,b$ , равных мат.ожиданиям своих априорных распределений, округленных до ближайшего целого. Являются ли множества $\{(p_1,p_2)|\mathbb{D}[c|b]<\mathbb{D}[c|a]\}$ и $\{(p_1,p_2)|\mathbb{D}[c|b]\ge\mathbb{D}[c|a]\}$ линейно разделимыми?
Провести временные замеры по оценке всех необходимых распределений $p(c),p(c|a),p(c|b),p(b|a),p(b|a,d),p(d)$ .

Вариант 3

Рассматривается модель 4 с параметрами $a_{min}=15, a_{max}=30, b_{min}=250, b_{max}=350, p_1 = 0.5, p_2 = 0.05, p_3 = 0.5, N = 50$ . Провести на компьютере следующие исследования:

Найти математические ожидания и дисперсии априорных распределений для всех параметров $a, b, c_n, d_n$ .
Реализовать генератор выборки $d_1,\dots,d_N$ из модели при заданных значениях параметров $a,b$ .
Пронаблюдать, как происходит уточнение прогноза для величины $b$ по мере прихода новой косвенной информации. Для этого построить графики и найти мат.ожидание и дисперсию для распределений $p(b), p(b|d_1), \dots, p(b|d_1,\dots,d_N)$ , где выборка $d_1,\dots,d_N$ 1) сгенерирована из модели при параметрах $a,b$ , равных мат.ожиданиям своих априорных распределений, округленных до ближайшего целого и 2) $d_1=\dots=d_N$ , где $d_n$ равно мат.ожиданию своего априорного распределения, округленного до ближайшего целого. Провести аналогичный эксперимент, если дополнительно известно значение $a$ . Сравнить результаты двух экспериментов.
Провести временные замеры по оценке всех необходимых распределений $p(c_n),p(d_n),p(b|d_1,\dots,d_n),p(b|a,d_1,\dots,d_n)$ .

Для студентов 4 курса и выше: необходимо дополнительно провести все исследования для точной модели 3 и сравнить результаты с аналогичными для модели 4.

Оформление задания

Выполненное задание следует отправить письмом по адресу bayesml@gmail.com с заголовком письма «Задание 1 <Номер_группы> <ФИО>». Убедительная просьба присылать выполненное задание только один раз с окончательным вариантом. Новые версии будут рассматриваться только в самом крайнем случае. Задания, в которых прототипы реализованных функций не будут соответствовать описанию ниже, рассматриваться не будут!

Среда реализации — MATLAB.

Присланный вариант задания должен содержать в себе:

ФИО исполнителя, номер группы и номер варианта задания.
Текстовый файл в формате PDF, содержащий описание проведенных исследований.
Все исходные коды с необходимыми комментариями.
Дополнительные комментарии или материалы, если необходимо.

Исходные коды должны включать в себя реализацию оценки распределений в виде отдельных функций. Название таких функций имеет вид pNabcd_efgh, где N — номер вероятностной модели, abcd — набор переменных, которые стоят в условном распределении до черты, efgh — набор переменных, которые стоят в условном распределении после черты. Например, функция для оценки распределения $p(c|a,d)$ в модели 2 имеет название p2c_ad, а функция для оценки распределения $p(b|a,d_1,\dots,d_N)$ в модели 3 имеет название p3b_ad, где входной параметр $d$ является одномерным массивом. Прототип функции p2c_ad имеет следующий вид:

Оценка распределения $p(c|a,d)$ для модели 2

[p, c, m, v] = p2c_ad(a, d, params)

ВХОД

a — значение параметра a;

d — значение параметра d;

params — набор параметров вероятностной модели, структура с полями 'amin', 'amax', 'bmin', 'bmax', 'p1', 'p2', 'p3';

ВЫХОД

p — распределение вероятности, одномерный массив длины length(c);

c — носитель распределения, одномерный массив;

m — математическое ожидание распределения;

v — дисперсия распределения.

Прототипы функций для других распределений выглядят аналогично.

Генерация из распределения $p(d_1,\dots,d_N|a,b)$ для модели 3

d = m3_generate(N, a, b, params)

ВХОД

N — количество лекций;

a — значение параметра a;

b — значение параметра b;

params — набор параметров вероятностной модели, структура с полями 'amin', 'amax', 'bmin', 'bmax', 'p1', 'p2', 'p3';

ВЫХОД

d — значения $d_1,\dots,d_N$ , одномерный массив длины N.

Распределение студентов по вариантам

Студентам, которые не нашли себя в этом списке, следует написать письмо по адресу bayesml@gmail.com с запросом номера варианта. В этом письме не забудьте указать свою фамилию и номер группы.

2-ой курс			3-ий курс			4-ый курс			5-ый курс и др.
Участник	Группа	Вариант	Участник	Группа	Вариант	Участник	Группа	Вариант	Участник	Группа	Вариант
Иванов Петр	202	1	Карнаухов Денис	315	1	Головин Антон	417	2	Логачев Ю.М.	517	1
Ромов Петр	202	2	Елшин Денис	317	2	Ермишин Федор	421	3	Нокель Михаил	520	2
Стефонишин Даниил	202	3	Соколов Евгений	317	3	Кухаренко А.И.	421	1	Потапов Даниил	521	2
Гавриков Михаил	202	3	Мытрова Марина	317	1	Третьяков А.И.	431	1	Петров Александр	521	3
Дворяков Кирилл	202	1	Некрасов Константин	317	2	Понамарев Д.И.	431	2	Матюнин С.Б.	521	1
Никитин М.Ю.	202	2	Новиков Павел	317	3	Астахов А.Н.	431	3	Светличный Дмитрий	в/о-2	1
Любич Илья	205	3	Крючков Станислав	319	1	Лихобабин С.М.	431	2	Шаповалов Роман	622	2
Подорога Анастасия	205	1				Казаков Илья	432	3
Грачев Артем	206	1
Гайнуллин А.Ф.	207	3
Потапенко Анна	207	2
Фонарев Александр	208	2
Карев Александр	209	1
Борисов Алексей	209	3
Лобачева Е.М.	209	1
Маллачиев К.А.	209	2
Кузнецов Арсений	209	2
Маянцев Кирилл	213	3
Нимак Владимир	215	1
Иванов Николай	215	2
Баранов Виталий	215	3
Борисов Михаил	216	1

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%94.%D0%9F._%D0%92%D0%B5%D1%82%D1%80%D0%BE%D0%B2%2C_%D0%94.%D0%90._%D0%9A%D1%80%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D0%B2%29/2011/%D0%97%D0%B0%D0%B4%D0%B0%D0%BD%D0%B8%D0%B5_1»

@@ Строка 91: / Строка 91: @@
 == Оформление задания ==
-Выполненное задание следует отправить письмом по адресу ''bayesml@gmail.com'' с заголовком письма «Задание 1 <Номер_группы> <ФИО>». Убедительная просьба присылать выполненное задание '''только один раз''' с окончательным вариантом. Новые версии будут рассматриваться только в самом крайнем случае.
+Выполненное задание следует отправить письмом по адресу ''bayesml@gmail.com'' с заголовком письма «Задание 1 <Номер_группы> <ФИО>». Убедительная просьба присылать выполненное задание '''только один раз''' с окончательным вариантом. Новые версии будут рассматриваться только в самом крайнем случае. '''Задания, в которых прототипы реализованных функций не будут соответствовать описанию ниже, рассматриваться не будут!'''
-В качестве программной среды реализации настоятельно рекомендуется использовать MATLAB. Тем не менее, никаких ограничений на выбор среды реализации не накладывается.
+Среда реализации — MATLAB.
 Присланный вариант задания должен содержать в себе:
@@ Строка 101: / Строка 101: @@
 * Дополнительные комментарии или материалы, если необходимо.
-Исходные коды должны включать в себя реализацию оценки распределений в виде отдельных функций. Прототип для функции оценки распределения <tex>p(c|a,d)</tex> для модели 2 имеет следующий вид:<br>
+Исходные коды должны включать в себя реализацию оценки распределений в виде '''отдельных функций'''. Название таких функций имеет вид '''pNabcd_efgh''', где N — номер вероятностной модели, abcd — набор переменных, которые стоят в условном распределении до черты, efgh — набор переменных, которые стоят в условном распределении после черты. Например, функция для оценки распределения <tex>p(c|a,d)</tex> в модели 2 имеет название p2c_ad, а функция для оценки распределения <tex>p(b|a,d_1,\dots,d_N)</tex> в модели 3 имеет название p3b_ad, где входной параметр <tex>d</tex> является одномерным массивом. Прототип функции p2c_ad имеет следующий вид:<br>
 {|class="standard"
  !''Оценка распределения <tex>p(c|a,d)</tex> для модели 2''
@@ Строка 133: / Строка 133: @@
  |}
-Прототипы функций для других распределений выглядят аналогично. Если в распределении переменных до или после | несколько, то в названии функции они идут в алфавитном порядке. Функция для оценки распределения <tex>p(b|a,d_1,\dots,d_N)</tex> для модели 3 имеет название p3b_ad, а входной параметр <tex>d</tex> является одномерным массивом длины <tex>N</tex>.
+Прототипы функций для других распределений выглядят аналогично.
 {|class="standard"

Байесовские методы машинного обучения (курс лекций, Д.П. Ветров, Д.А. Кропотов)/2011/Задание 1

Материал из MachineLearning.

Версия 17:15, 27 сентября 2011

Вариант 1

Вариант 2

Вариант 3

Оформление задания

Распределение студентов по вариантам

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты