Исследование устойчивости оценок ковариационной матрицы параметров
Материал из MachineLearning.
(Новая: ==Введение== В данной работе исследуется устойчивость оценок ковариационной матрицы параметров моде...) |
|||
Строка 13: | Строка 13: | ||
Задана выборка <tex>D = (X, \mathbf{y}) = \{(x_i, y_i)\}_{i = 1}^m</tex>. | Задана выборка <tex>D = (X, \mathbf{y}) = \{(x_i, y_i)\}_{i = 1}^m</tex>. | ||
- | Вектор свободных переменных <tex>x \in \mathbb{R}^n<tex>, зависимая переменная <tex>y \in \mathbb{R}</tex>. | + | Вектор свободных переменных <tex>x \in \mathbb{R}^n</tex>, зависимая переменная <tex>y \in \mathbb{R}</tex>. |
Предполгается, что | Предполгается, что | ||
<br/> | <br/> | ||
Строка 19: | Строка 19: | ||
y = f(x, w) + \varepsilon, | y = f(x, w) + \varepsilon, | ||
</tex> | </tex> | ||
+ | |||
где <tex>f(x, w)</tex> --- некоторая параметрическая функция, <tex>w \in W</tex> --- вектор ее параметров, <tex>\varepsilon</tex> --- ошибка, распределенная нормально с нулевым математическим ожиданием и дисперсией <tex>\beta</tex>, <tex>\varepsilon \sim \mathcal{N}(0, \beta)</tex>. Предполагается, что вектор параметров <tex>w</tex> --- нормальнораспределенный случайный вектор с нулевым математическим ожиданием и матрицей ковариаций <tex>A</tex>. | где <tex>f(x, w)</tex> --- некоторая параметрическая функция, <tex>w \in W</tex> --- вектор ее параметров, <tex>\varepsilon</tex> --- ошибка, распределенная нормально с нулевым математическим ожиданием и дисперсией <tex>\beta</tex>, <tex>\varepsilon \sim \mathcal{N}(0, \beta)</tex>. Предполагается, что вектор параметров <tex>w</tex> --- нормальнораспределенный случайный вектор с нулевым математическим ожиданием и матрицей ковариаций <tex>A</tex>. | ||
Строка 24: | Строка 25: | ||
Наиболее вероятные параметры <tex>w_{MP}</tex> имеют вид: <br/> | Наиболее вероятные параметры <tex>w_{MP}</tex> имеют вид: <br/> | ||
<tex> | <tex> | ||
- | w_{MP} = | + | w_{MP} = argmax_{w} p(w| D, A, \beta, f). |
</tex> | </tex> | ||
Строка 36: | Строка 37: | ||
</tex> | </tex> | ||
- | Набор наиболее вероятных гиперпараметров будем искать, максимизируя оценку правдоподобия по <tex>A</tex>, <tex>\beta</tex> | + | Набор наиболее вероятных гиперпараметров будем искать, максимизируя оценку правдоподобия по <tex>A</tex>, <tex>\beta</tex><br/> |
<tex> | <tex> | ||
\ln p(D|A, \beta, f) = - \frac12 \ln |A| - \frac{m}2 \ln 2\pi + \frac{m}2 \ln \beta \underbrace{- E_{w} - \beta E_D}_{S(w_0)} - \frac12 \ln |H|, | \ln p(D|A, \beta, f) = - \frac12 \ln |A| - \frac{m}2 \ln 2\pi + \frac{m}2 \ln \beta \underbrace{- E_{w} - \beta E_D}_{S(w_0)} - \frac12 \ln |H|, | ||
</tex> | </tex> | ||
+ | |||
здесь <tex>H</tex> --- гессиан функционала <tex>S(w)</tex>. | здесь <tex>H</tex> --- гессиан функционала <tex>S(w)</tex>. | ||
В предположении о диагональности матрицы <tex>A = diag(\boldsymbol{\alpha})</tex> и гессиана <tex>H = diag(\mathbf{h})</tex>, | В предположении о диагональности матрицы <tex>A = diag(\boldsymbol{\alpha})</tex> и гессиана <tex>H = diag(\mathbf{h})</tex>, | ||
- | + | <tex>\alpha = \{ \alpha_i \}_{i = 1}^m</tex>, <tex>\mathbf{h} = \{h_i \}_{i = 1}^m</tex>, приравняв производные по гиперпараметрам к нулю, получаем оценку для <tex>\alpha_i</tex>: <br/> | |
<tex> | <tex> | ||
- | |||
\alpha_i = \frac12 \lambda_i \left( \sqrt{1 + \frac{4}{w_i^2 \lambda_i}} - 1 \right), | \alpha_i = \frac12 \lambda_i \left( \sqrt{1 + \frac{4}{w_i^2 \lambda_i}} - 1 \right), | ||
</tex> | </tex> | ||
здесь <tex>\lambda_i = \beta h_i</tex>. | здесь <tex>\lambda_i = \beta h_i</tex>. | ||
- | Так же получаем оценку <tex>\beta</tex> <br/> | + | Так же получаем оценку <tex>\beta</tex>: <br/> |
<tex> | <tex> | ||
- | |||
\beta = \frac{n - \gamma}{2 E_D}, | \beta = \frac{n - \gamma}{2 E_D}, | ||
</tex> | </tex> |
Версия 20:44, 24 сентября 2011
Введение
В данной работе исследуется устойчивость оценок ковариационной матрицы параметров модели. Рассматриваются модели линейной регрессии. Тогда вектор параметров модели соответствует набору признаков модели. Ковариационная матрица параметров строится в предположении о вероятностном распределении вектора параметров. Исследуется, как будет меняться ковариационная матрица параметров модели при добавлении новых столбцов в матрицу плана. Для такой матрицы плана получаем расширенный вектор параметров модели и оценку матрицы ковариации параметров модели. Сравнивается ковариационная матрица для нерасширенного и расширенного вектора параметеров модели. Исследуется пространство параметров для информативных признаков.
Постановка задачи
Задана выборка .
Вектор свободных переменных , зависимая переменная .
Предполгается, что
где --- некоторая параметрическая функция, --- вектор ее параметров, --- ошибка, распределенная нормально с нулевым математическим ожиданием и дисперсией , . Предполагается, что вектор параметров --- нормальнораспределенный случайный вектор с нулевым математическим ожиданием и матрицей ковариаций .
Рассматривается класс линейных функций .
Наиболее вероятные параметры имеют вид:
Для такого набора параметров исследуется матрица ковариации , который мы тоже оцениваем, используя принцип максимального правдоподобия.
Описание алгоритма оценки матрицы ковариации
Для фиксированных гиперпарамтеров , вектор наиболее вероятных параметров минимизирует функционал
Набор наиболее вероятных гиперпараметров будем искать, максимизируя оценку правдоподобия по ,
здесь --- гессиан функционала .
В предположении о диагональности матрицы и гессиана ,
, , приравняв производные по гиперпараметрам к нулю, получаем оценку для :
здесь .
Так же получаем оценку :
здесь
Используя оценки вектора параметров при фиксированных гиперпарамтерах и гиперпараметров при фиксированных параметрах, выпишем итерационный алгоритм поиска наиболее вероятных параметров и гиперпараметров. Он состоит из шагов:
- поиск вектора параметров, максимизирующих функционал ,
- поиск гиперпараметров, максимизирующих правдоподобие,
- проверка критерия остановки.
Критерий остановки --- малое изменение функционала для двух последовательных итераций алгоритма.