Вычисление гиперпараметров при различных гипотезах порождения данных (пример)

Материал из MachineLearning.

(Различия между версиями)

Версия 19:23, 14 декабря 2010

Постановка задачи

Рассмотрим следующую модель регрессии, описывающую связь между свободной и зависимой переменными

$y= \mathbf{w}^T\mathbf{x} + \nu$ ,

где $y\in\mathbb{R},\; \mathbf{w},\; \mathbf{x}\in\mathbb{R}^n$ . Будем считать, что ошибка это случайная величина из параметрического семейства распределений, у которого существует дважды непрерывно дифференцируемая плотность $\mathbf{f(x, \theta_1)}$ , с параметром $\mathbf{\theta_1}\in\mathbb{R}^{k_1}$ . Относительно весов $\mathbf{w}$ , которые будем называть параметрами модели, сделаем аналогичные предположения, т.е. что $\mathbf{w}\in\mathbf{g(x, \theta_2)}$ , с параметром $\mathbf{\theta_2}\in\mathbb{R}^{k_2}$ .

Оценка гиперпараметров

Гиперпараметрами модели будем называть пару параметров указанных выше распределений $\theta=$\mathbf{\theta_1, \theta_2}$$ . Оценивать гиперпараметры и параметры модели будем следуя байесовскому выводу, т.е. максимизируя апостериорную вероятность гиперпараметров при условии появления данных $\{(\mathbf{x}_j,y_j), \;j=1...N\}$ :

$p$\mathbf{\theta}|D$=\frac{p$D|\mathbf{\theta}$p$\mathbf{\theta}$} {\int{p$D|\mathbf{\theta}$p$\mathbf{\theta}$d\mathbf{\theta}}}\propto p$D|\mathbf{\theta}$\to\max$\mathbf{\theta}$.$

Используя формула Байеса, это выражение можно записать в виде интеграла по значениям параметров модели $\mathbf{w}$ :

$\int{p$D|\mathbf{\theta, w}$p$\mathbf{\theta}$p$\mathbf{w}$d\mathbf{w}} \to\max$\mathbf{\theta}$.$

Нетрудно видеть что выражение $p$D|\mathbf{\theta, w}$$ есть вероятность появления данных при конкретной модели (фиксированных параметрах и гиперпараметрах). Так как мы считаем везде, что свободные переменные даны, то это есть распределение зависимой переменной $y$ . Оно в свою очередь определяется распределением ошибки и может быть записано в виде:

$p$D|\mathbf{\theta, w}$=\prod_{j=1}^N {p$y_j|\mathbf{x}_j,\mathbf{\theta,w}$} =\prod_{j=1}^{N}{\mathbf{f}(y_j-\mathbf{w}^T \mathbf{x}_j, \mathbf{\theta_1})}$

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%92%D1%8B%D1%87%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B3%D0%B8%D0%BF%D0%B5%D1%80%D0%BF%D0%B0%D1%80%D0%B0%D0%BC%D0%B5%D1%82%D1%80%D0%BE%D0%B2_%D0%BF%D1%80%D0%B8_%D1%80%D0%B0%D0%B7%D0%BB%D0%B8%D1%87%D0%BD%D1%8B%D1%85_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7%D0%B0%D1%85_%D0%BF%D0%BE%D1%80%D0%BE%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29»

@@ Строка 8: / Строка 8: @@
 дифференцируемая плотность <tex>\mathbf{f(x, \theta_1)}</tex>, с параметром <tex>\mathbf{\theta_1}\in\mathbb{R}^{k_1}</tex>.
 Относительно весов <tex>\mathbf{w}</tex>, которые будем называть параметрами модели, сделаем аналогичные
-предположения, т.е. что <tex>\mathbf{w}\in\mathbf{g(x, \theta_2)}</tex>, с параметром <tex>\mathbf{\theta_2}\in\mathbb{R}^{k_2}</tex>. Гиперпараметрами модели будем называть пару параметров указанных выше распределений
+предположения, т.е. что <tex>\mathbf{w}\in\mathbf{g(x, \theta_2)}</tex>, с параметром <tex>\mathbf{\theta_2}\in\mathbb{R}^{k_2}</tex>.
+== Оценка гиперпараметров ==
+Гиперпараметрами модели будем называть пару параметров указанных выше распределений
 <tex>\theta=\(\mathbf{\theta_1, \theta_2}\)</tex>. Оценивать гиперпараметры и параметры модели будем следуя байесовскому выводу, т.е. максимизируя апостериорную вероятность гиперпараметров при условии появления данных <tex>\{(\mathbf{x}_j,y_j), \;j=1...N\}</tex>:
-<center><tex>p\(\mathbf{\theta}|D\)=\frac{p\(D|\mathbf{\theta\})p\(\mathbf{\theta}\)}{\int{p\(D|\mathbf{\theta}\)p\(\mathbf{\theta}\)d\mathbf{\theta}}}}
+<center><tex>p\(\mathbf{\theta}|D\)=\frac{p\(D|\mathbf{\theta}\)p\(\mathbf{\theta}\)} {\int{p\(D|\mathbf{\theta}\)p\(\mathbf{\theta}\)d\mathbf{\theta}}}\propto p\(D|\mathbf{\theta}\)\to\max\(\mathbf{\theta}\).</tex></center>
-\propto p\(D|\mathbf{\theta}\)\to\max\(\mathbf{\theta\}).</tex></center>
 Используя формула Байеса, это выражение можно записать в виде интеграла по значениям параметров модели <tex>\mathbf{w}</tex>:
-<center><tex>\int{d\mathbf{}w}
+<center><tex>\int{p\(D|\mathbf{\theta, w}\)p\(\mathbf{\theta}\)p\(\mathbf{w}\)d\mathbf{w}} \to\max\(\mathbf{\theta}\).</tex></center>
+Нетрудно видеть что выражение <tex>p\(D|\mathbf{\theta, w}\)</tex> есть вероятность появления данных при конкретной модели (фиксированных параметрах и гиперпараметрах). Так как мы считаем везде, что свободные переменные даны,
+то это есть распределение зависимой переменной <tex>y</tex>. Оно в свою очередь определяется распределением ошибки и может быть записано в виде:
-p\(\theta|D\)=\frac{p\(D|\theta\)p\(\theta\)}{\int{p\(D|\theta\)p\(\theta\)d\theta}}\propto p\(D|\theta\)\to\max\(\theta\).</tex></center>
+<center><tex>p\(D|\mathbf{\theta, w}\)=\prod_{j=1}^N {p\(y_j|\mathbf{x}_j,\mathbf{\theta,w}\)} =\prod_{j=1}^{N}{\mathbf{f}(y_j-\mathbf{w}^T \mathbf{x}_j, \mathbf{\theta_1})}</tex></center>

Вычисление гиперпараметров при различных гипотезах порождения данных (пример)

Материал из MachineLearning.

Версия 19:23, 14 декабря 2010

Постановка задачи

Оценка гиперпараметров

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты