Вычисление гиперпараметров при различных гипотезах порождения данных (пример)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 9: Строка 9:
Относительно весов <tex>\mathbf{w}</tex>, которые будем называть параметрами модели, сделаем аналогичные
Относительно весов <tex>\mathbf{w}</tex>, которые будем называть параметрами модели, сделаем аналогичные
предположения, т.е. что <tex>\mathbf{w}\in\mathbf{g(x, \theta_2)}</tex>, с параметром <tex>\mathbf{\theta_2}\in\mathbb{R}^{k_2}</tex>. Гиперпараметрами модели будем называть пару параметров указанных выше распределений
предположения, т.е. что <tex>\mathbf{w}\in\mathbf{g(x, \theta_2)}</tex>, с параметром <tex>\mathbf{\theta_2}\in\mathbb{R}^{k_2}</tex>. Гиперпараметрами модели будем называть пару параметров указанных выше распределений
-
<tex>\theta=\(\mathbf{\theta_1, \theta_2}\)</tex>. Оценивать гиперпараметры и параметры модели будем проводить следуя байесовскому выводу, т.е. максимизируя апостериорную вероятность гиперпараметров при условии появления данных <tex>\{(\mathbf{x}_j,y_j), \;j=1...N\}</tex>:
+
<tex>\theta=\(\mathbf{\theta_1, \theta_2}\)</tex>. Оценивать гиперпараметры и параметры модели будем следуя байесовскому выводу, т.е. максимизируя апостериорную вероятность гиперпараметров при условии появления данных <tex>\{(\mathbf{x}_j,y_j), \;j=1...N\}</tex>:
-
<center><tex>p\(\theta|D\)=\frac{p\(D|\theta\)p\(\theta\)}{\int{p\(D|\theta\)p\(\theta\)d\theta}}\propto p\(D|\theta\)\to\max\(\theta\).</tex></center>
+
<center><tex>p\(\mathbf{\theta}|D\)=\frac{p\(D|\mathbf{\theta\})p\(\mathbf{\theta}\)}{\int{p\(D|\mathbf{\theta}\)p\(\mathbf{\theta}\)d\mathbf{\theta}}}}
 +
\propto p\(D|\mathbf{\theta}\)\to\max\(\mathbf{\theta\}).</tex></center>
-
Используя формула Байеса, это выражение можно записать в виде интеграла по значениям параметров модели <tex>\mathbf{w}</tex>
+
Используя формула Байеса, это выражение можно записать в виде интеграла по значениям параметров модели <tex>\mathbf{w}</tex>:
 +
 
 +
<center><tex>\int{d\mathbf{}w}
 +
 
 +
p\(\theta|D\)=\frac{p\(D|\theta\)p\(\theta\)}{\int{p\(D|\theta\)p\(\theta\)d\theta}}\propto p\(D|\theta\)\to\max\(\theta\).</tex></center>

Версия 18:59, 14 декабря 2010

Постановка задачи

Рассмотрим следующую модель регрессии, описывающую связь между свободной и зависимой переменными

y= \mathbf{w}^T\mathbf{x} + \nu
,

где y\in\mathbb{R},\; \mathbf{w},\; \mathbf{x}\in\mathbb{R}^n. Будем считать, что ошибка это случайная величина из параметрического семейства распределений, у которого существует дважды непрерывно дифференцируемая плотность \mathbf{f(x, \theta_1)}, с параметром \mathbf{\theta_1}\in\mathbb{R}^{k_1}. Относительно весов \mathbf{w}, которые будем называть параметрами модели, сделаем аналогичные предположения, т.е. что \mathbf{w}\in\mathbf{g(x, \theta_2)}, с параметром \mathbf{\theta_2}\in\mathbb{R}^{k_2}. Гиперпараметрами модели будем называть пару параметров указанных выше распределений \theta=\(\mathbf{\theta_1, \theta_2}\). Оценивать гиперпараметры и параметры модели будем следуя байесовскому выводу, т.е. максимизируя апостериорную вероятность гиперпараметров при условии появления данных \{(\mathbf{x}_j,y_j), \;j=1...N\}:

p\(\mathbf{\theta}|D\)=\frac{p\(D|\mathbf{\theta\})p\(\mathbf{\theta}\)}{\int{p\(D|\mathbf{\theta}\)p\(\mathbf{\theta}\)d\mathbf{\theta}}}}
</p>
\propto p\(D|\mathbf{\theta}\)\to\max\(\mathbf{\theta\}).

Используя формула Байеса, это выражение можно записать в виде интеграла по значениям параметров модели \mathbf{w}:

\int{d\mathbf{}w}
</p>
p\(\theta|D\)=\frac{p\(D|\theta\)p\(\theta\)}{\int{p\(D|\theta\)p\(\theta\)d\theta}}\propto p\(D|\theta\)\to\max\(\theta\).
Личные инструменты