Исследование скорости сходимости параметров и гиперпараметров (пример)
Материал из MachineLearning.
(→Описание метода) |
(→Описание метода) |
||
Строка 36: | Строка 36: | ||
<center><tex>P(\mathbf{w}|\,D, A, \beta, f)= \frac{P(D|\, \mathbf{w}, \beta, f) P(\mathbf{w}|\, A, f)}{P(D|\, A, \beta, f)} \propto \exp(-S(\mathbf{w}))</tex></center> | <center><tex>P(\mathbf{w}|\,D, A, \beta, f)= \frac{P(D|\, \mathbf{w}, \beta, f) P(\mathbf{w}|\, A, f)}{P(D|\, A, \beta, f)} \propto \exp(-S(\mathbf{w}))</tex></center> | ||
- | Таким образом, минимизация <tex> S(\mathbf{w})</tex> по <tex>\mathbf{w}</tex> дает максимум априорной плотности распределения параметров <tex>\mathbf{w}</tex> на выборке <tex>D</tex>. | + | Таким образом, минимизация <tex> S(\mathbf{w})</tex> по <tex>\mathbf{w}</tex> дает максимум априорной плотности распределения параметров <tex>\mathbf{w}</tex> на выборке <tex>D</tex>. Минимизация осуществляется алгоритмом Левенберга-Марквардта. |
Версия 18:41, 22 декабря 2010
|
Для фиксированной регрессионной модели исследуется скорость сходимости параметров и гиперпараметров при ее настройке через двухуровневый байесовский вывод.
Постановка задачи
Рассмотрим следующую модель регрессии, описывающую связь между свободной и зависимой переменными:
Пусть случайная величина имеет нормальное распределение . При этом будем обозначать .
Вектор называется параметрами модели и рассматривается как многомерная случайная величина. Пусть плотность распределения параметров имеет вид многомерного нормального распределения с матрицей ковариации . В данном примере будут рассматриваться 2 случая: , где - число параметров модели, и , где - единичная матрица размерности .
Величины и называются гиперпараметрами модели.
Для нескольких фиксированных функций , задающих модель, через двухуровневый байесовский вывод происходит настройка параметров и гиперпараметров. Требуется проанализировать изменение параметров и гиперпараметров по мере настройки.
Алгоритм настройки регрессионной модели (двухуровневый байесовский вывод)
Настройка модели происходит через двухуровневый байесовский вывод.
Описание метода
Т.к. , то для фиксированной модели f плотность вероятности появления данных
где
Т.к. , то
где
Тогда, если обозначить , то
Таким образом, минимизация по дает максимум априорной плотности распределения параметров на выборке . Минимизация осуществляется алгоритмом Левенберга-Марквардта.
Считая, что в точке минимума функционал представим в виде:
получаем, что логарифм функции правдоподобия равен
Гиперпараметры и находятся итерационно из условия максимизации полученной функции правдоподобия:
При
- , где - собственные числа матрицы - части Гессиана, не зависящей от .
- , где
При
- , где
- , где
Алгоритм
1) Задаем начальные значения , и
2) Ищем локальный минимум функции ошибки по
3) Ищем локальный максимум функции правдоподобия гиперпараметров по
4) Повторяем шаги 2 и 3 до сходимости функционала
Вычислительный эксперимент
Рассматриваются 6 типов моделей:
1) модель полиномиальной регрессии
2) модель
3) модель
4) модель
5) модель трехпараметрического распределения Вейбулла
6) модель с тригонометрическими функциями