Определение гиперпараметров для MVR

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 1: Строка 1:
 +
{{stub}}
При максимизации вероятности появления данных D для гиперпараметров α и β мы получаем:
При максимизации вероятности появления данных D для гиперпараметров α и β мы получаем:

Версия 08:57, 13 апреля 2009

При максимизации вероятности появления данных D для гиперпараметров α и β мы получаем:

\ln p(D|\alpha , \beta ) = -E_W^{MP} - \frac{1}{2}\sum_{j=1}^{W}\frac{1}{\lambda_j+\alpha} +\frac{W}{2\alpha}

Отсюда, приравнивая логарифм к 0, получаем выражение для α.

2\alpha E_{MP}^W = W - \sum_{j=1}^{W}\frac{\alpha}{\lambda_j+\alpha}

Выражаем γ - мера числа хорошо обусловленных параметров модели:

\gamma = \sum_{j=1}^{W}\frac{\alpha}{\lambda_j+\alpha}

Далее, находя оптимальное β, получим, что

2 \beta E_D^{MP}= N - \sum_{j=1}^{W}\frac{\lambda_j}{\lambda_j+\alpha}

Таким образом, на каждом шаге у нас для модели определены гиперпараметры α,β,γ. При этом β определена для всей модели, а α и γ для каждой функции из суперпозиции. Так как оптимизация параметров w дает нам положительно определенную форму гессиана, его собственные значения λ больше нуля, и, таким образом, γ меньше нуля.

Мы имеем следующий итерационный процесс пересчета α и γ:

\alpha_{ij}^{new} = \frac{W-\gamma_i}{E_W(b_{ij})}

\gamma = \sum_{j=1}^{W}\frac{\alpha}{\lambda_j+\alpha}

Процесс сходится, так как увеличение α ведет к увеличению γ, что на следующем шаге ведет к уменьшению α.


Личные инструменты