Вычисление гиперпараметров при различных гипотезах порождения данных (пример)
Материал из MachineLearning.
Постановка задачи
Рассмотрим следующую модель регрессии, описывающую связь между свободной и зависимой переменными
где . Будем считать, что ошибка это случайная величина из параметрического семейства распределений, у которого существует дважды непрерывно дифференцируемая плотность , с параметром . Относительно весов , которые будем называть параметрами модели, сделаем аналогичные предположения, т.е. что , с параметром .
Оценка гиперпараметров
Гиперпараметрами модели будем называть пару параметров указанных выше распределений . Оценивать гиперпараметры и параметры модели будем следуя байесовскому выводу, т.е. максимизируя апостериорную вероятность гиперпараметров при условии появления данных :
Используя формула Байеса, это выражение можно записать в виде интеграла по значениям параметров модели :
Нетрудно видеть что выражение есть вероятность появления данных при конкретной модели (фиксированных параметрах и гиперпараметрах). Так как мы считаем везде, что свободные переменные даны, то это есть распределение зависимой переменной . Оно в свою очередь определяется распределением ошибки и может быть записано в виде: