Вычисление гиперпараметров при различных гипотезах порождения данных (пример)
Материал из MachineLearning.
Постановка задачи
Рассмотрим следующую модель регрессии, описывающую связь между свободной и зависимой переменными
где . Будем считать, что ошибка
это случайная величина из параметрического семейства распределений, у которого существует дважды непрерывно
дифференцируемая плотность
, с параметром
.
Относительно весов
, которые будем называть параметрами модели, сделаем аналогичные
предположения, т.е. что
, с параметром
.
Оценка гиперпараметров
Гиперпараметрами модели будем называть пару параметров указанных выше распределений
. Оценивать гиперпараметры и параметры модели будем следуя байесовскому выводу, т.е. максимизируя апостериорную вероятность гиперпараметров при условии появления данных
:
Используя формула Байеса, это выражение можно записать в виде интеграла по значениям параметров модели :
Нетрудно видеть что выражение есть вероятность появления данных при конкретной модели (фиксированных параметрах и гиперпараметрах). Так как мы считаем везде, что свободные переменные даны,
то это есть распределение зависимой переменной
. Оно в свою очередь определяется распределением ошибки и может быть записано в виде: