Исследование устойчивости оценок ковариационной матрицы параметров

Материал из MachineLearning.

(Различия между версиями)

Версия 06:47, 27 сентября 2011

Содержание

1 Введение
2 Постановка задачи
3 Описание алгоритма оценки матрицы ковариации
4 Вычислительный эксперимент
5 Исходный код и полный текст работы
6 Смотри также
7 Литература

Введение

В данной работе исследуется устойчивость оценок ковариационной матрицы параметров модели. Рассматриваются модели линейной регрессии. Тогда вектор параметров модели соответствует набору признаков модели. Ковариационная матрица параметров строится в предположении о вероятностном распределении вектора параметров. Исследуется, как будет меняться ковариационная матрица параметров модели при добавлении новых столбцов в матрицу плана. Для такой матрицы плана получаем расширенный вектор параметров модели и оценку матрицы ковариации параметров модели. Сравнивается ковариационная матрица для нерасширенного и расширенного вектора параметеров модели. Исследуется пространство параметров для информативных признаков.

Постановка задачи

Задана выборка $D = (X, \mathbf{y}) = \{(x_i, y_i)\}_{i = 1}^m$ . Вектор свободных переменных $x \in \mathbb{R}^n$ , зависимая переменная $y \in \mathbb{R}$ . Предполгается, что

$y = f(x, w) + \varepsilon,$

где $f(x, w)$ --- некоторая параметрическая функция, $w \in W$ --- вектор ее параметров, $\varepsilon$ --- ошибка, распределенная нормально с нулевым математическим ожиданием и дисперсией $\beta$ , $\varepsilon \sim \mathcal{N}(0, \beta)$ . Предполагается, что вектор параметров $w$ --- нормальнораспределенный случайный вектор с нулевым математическим ожиданием и матрицей ковариаций $A$ .

Рассматривается класс линейных функций $f(x, w)$ . Наиболее вероятные параметры $w_{MP}$ имеют вид:

$w_{MP} = argmax_{w} p(w| D, A, \beta, f).$

Для такого набора параметров исследуется матрица ковариации $A$ , который мы тоже оцениваем, используя принцип максимального правдоподобия.

Описание алгоритма оценки матрицы ковариации

Для фиксированных гиперпарамтеров $A$ , $\beta$ вектор наиболее вероятных параметров минимизирует функционал

$S(w) = w^T A w + \beta \sum_{i = 1}^n (y_i - x_i^T w)^2 = E_{w} + \beta E_D.$

Набор наиболее вероятных гиперпараметров будем искать, максимизируя оценку правдоподобия по $A$ , $\beta$

$\ln p(D|A, \beta, f) = - \frac12 \ln |A| - \frac{m}2 \ln 2\pi + \frac{m}2 \ln \beta \underbrace{- E_{w} - \beta E_D}_{S(w_0)} - \frac12 \ln |H|,$

здесь $H$ --- гессиан функционала $S(w)$ . В предположении о диагональности матрицы $A = diag(\alpha)$ и гессиана $H = diag(\mathbf{h})$ , $\alpha = \{ \alpha_i \}_{i = 1}^m$ , $\mathbf{h} = \{h_i \}_{i = 1}^m$ , приравняв производные по гиперпараметрам к нулю, получаем оценку для $\alpha_i$ :

$\alpha_i = \frac12 \lambda_i \left( \sqrt{1 + \frac{4}{w_i^2 \lambda_i}} - 1 \right),$

здесь $\lambda_i = \beta h_i$ .

Так же получаем оценку $\beta$ :

$\beta = \frac{n - \gamma}{2 E_D},$

здесь

$\gamma = \sum_{j=1}^n \frac{\lambda_j}{\lambda_j + \alpha_j}.$

Используя оценки вектора параметров при фиксированных гиперпарамтерах и гиперпараметров при фиксированных параметрах, выпишем итерационный алгоритм поиска наиболее вероятных параметров и гиперпараметров. Он состоит из шагов:

поиск вектора параметров, максимизирующих функционал $S(w)$ ,
поиск гиперпараметров, максимизирующих правдоподобие,
проверка критерия остановки.

Критерий остановки --- малое изменение функционала $S(w)$ для двух последовательных итераций алгоритма.

Вычислительный эксперимент

Один признак

В выборках один информативный признак и $n'$ шумовых. Вектор свободных переменных для каждого объекта генерируется из нормального распределения с нулевым математическим ожиданием и единичной дисперсией. Рассматриваются выборки размером $100$ и $1000$ . Зависимая переменная --- зашумленная линейная или обобщенно-линейная функция входа. Рассматривались обобщенные-линейные функции $y = \exp(-w^T x)$ и $y = \sin(w^T x)$ . Шум состоял из независимых нормальнораспределенных величин с дисперсией $\frac{1}{4}$ .

Зависимость параметра от гиперпараметров

На рисунках приведена зависимость параметра $w$ и гиперпараметра $\alpha$ , которые соответствуют нешумовому признаку.

Мы видим, что параметр сильно коррелирует с гиперпараметром, при этом, нет зависимости от числа шумовых признаков.

Сравнение гиперпараметров для разных признаков

Гиперпараметры $\alpha_i$ могут служить мерой информативности признаков. Сравнивались логарифм гиперпараметра значимого признака и минимальный из логарифмов гиперпарамтеров для незначимых признаков. Бралось усреднение логарифма по пяти различным выборкам. Результаты приведены на рисунках. Отметим, что в большинстве случаев значение гиперпараметра для значимого признака меньше, чем минимальное значение гиперпараметров для шумового, однако, в некоторых случаях наблюдаются выбросы, особенно хорошо это видно на правом рисунке, на котором рассматривалась аппроксимация обобщенно-линейной функции линейной.

Два признака

Проводился аналогичный эксперимент для двух информативных признаков, причем сравнивался максимальное значение гиперпараметра для информативных признаков с минимальным значением признака для шумовых признаков. На рисунках видно, что информативные признаки имели меньшие значения гиперпараметра $\alpha$ , чем информативные. Таким образом, удается выделить информативные и шумовые признаки. На рисунке показано сравнение информативности первого и второго информативных признаков, видно, что из-за большего веса один признак информативнее другого для линейной модели. Так же отметим, что для обобщенно-линейной функции не удается выделить наиболее информативный признак, в некоторых случаях гиперпараметры для первого или второго из признаков стремятся к бесконечности.

Реальные данные

Использовались реальные данные по определения характеристик цемента по его составу. Данные были нормализованы так, что как у свободных, так и у зависимой переменной были нулевые математические ожидания и единичные дисперсии. Для данных без шумовых признаков алгоритм был запущен сто раз на разных подвыборках размера $90$ (размер полной выборки --- $103$ ). Результаты приведены на рисунке. Видно, что признаки разделяются по информативности и что информативность почти всегда эквивалента модулю веса. Слева - веса полученные на каждом из ста запусков алгоритма, справа --- соответсвтующие им гиперпараметры.

Так же был проведен следующий эксперимент. К начальному набору свободных переменных был добавлен ряд шумовых признаков, затем на ста запусках была оценена $95$ -процентная квантиль рассматриваемой величины. На рисунке видно, что увеличение числа шумовых признаков увеличивает, хоть и не сильно, квантиль как оценки параметра, так и оценки гиперпараметра для разных признаков. Отметим, что, тем не менее, это не влияет на разделимость признаков по информативности.

Выводы

Используемый подход устойчив по отношению к шумовым признакам, качество полученной аппроксимации и оценки весов и информативности для информативных признаков слабо зависят от количества шумовых признаков.

Исходный код и полный текст работы

Zaitsev2011CovarianceEstimation

Смотри также

Литература

Стрижов В.В. и Сологуб Р.А. Алгоритм выбора нелинейных регрессионных моделей с анализом гиперпараметров. — ММРО-14. — 2009.
Christopher M. Bishop Pattern Recognition and Machine Learning. — Hardcover. — 2006. — 740 с.
Yeh, I. and others Modeling slump flow of concrete using second-order regressions and artificial neural networks. — 2007.

Данная статья является непроверенным учебным заданием.

Студент: Алексей Зайцев

Преподаватель: В.В. Стрижов

Срок: 28 сентября 2011

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%83%D1%81%D1%82%D0%BE%D0%B9%D1%87%D0%B8%D0%B2%D0%BE%D1%81%D1%82%D0%B8_%D0%BE%D1%86%D0%B5%D0%BD%D0%BE%D0%BA_%D0%BA%D0%BE%D0%B2%D0%B0%D1%80%D0%B8%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%B9_%D0%BC%D0%B0%D1%82%D1%80%D0%B8%D1%86%D1%8B_%D0%BF%D0%B0%D1%80%D0%B0%D0%BC%D0%B5%D1%82%D1%80%D0%BE%D0%B2»

Категории: Непроверенные учебные задания | Практика и вычислительные эксперименты | Регрессионный анализ

@@ Строка 79: / Строка 79: @@
 Сравнивались логарифм гиперпараметра значимого признака и минимальный из логарифмов гиперпарамтеров для незначимых признаков.
 Бралось усреднение логарифма по пяти различным выборкам.
-Результаты приведены на рисунках \ref{fig:hyperparametersCompare}.
+Результаты приведены на рисунках.
-На рисунке \ref{fig:hyperparametersCompare} видно, что в большинстве случаев значение гиперпараметра для значимого признака меньше, чем минимальное значение гиперпараметров для шумового, однако, в некоторых случаях наблюдаются выбросы.
+Отметим, что в большинстве случаев значение гиперпараметра для значимого признака меньше, чем минимальное значение гиперпараметров для шумового, однако, в некоторых случаях наблюдаются выбросы, особенно хорошо это видно на правом рисунке, на котором рассматривалась аппроксимация обобщенно-линейной функции линейной.
 [[Изображение:MeanAlphaVsNoiseAlpha.png|500px|Линейная функция]]
@@ Строка 88: / Строка 88: @@
 Проводился аналогичный эксперимент для двух информативных признаков, причем сравнивался максимальное значение гиперпараметра для информативных признаков с минимальным значением признака для шумовых признаков.
-На рисунках \ref{fig:hyperparametersCompare2} видно, что информативные признаки имели меньшие значения гиперпараметра <tex>\alpha</tex>, чем информативные.
+На рисунках видно, что информативные признаки имели меньшие значения гиперпараметра <tex>\alpha</tex>, чем информативные.
 Таким образом, удается выделить информативные и шумовые признаки.
-На рисунке \ref{fig:hyperparametersCompare3}показано сравнение информативности первого и второго информативных признаков, видно, что из-за большего веса один признак информативнее другого для линейной модели.
+На рисунке показано сравнение информативности первого и второго информативных признаков, видно, что из-за большего веса один признак информативнее другого для линейной модели.
-Так же отметим, что для обобщенно-линейной функции не удается выделить наиболее информативный признак, в некоторых случаях гиперпараметры для одного из признаков стремятся к бесконечности.
+Так же отметим, что для обобщенно-линейной функции не удается выделить наиболее информативный признак, в некоторых случаях гиперпараметры для первого или второго из признаков стремятся к бесконечности.
 [[Изображение:MeanAlphaVsNoiseAlpha2.png|500px|Линейная функция]]
@@ Строка 104: / Строка 104: @@
 Данные были нормализованы так, что как у свободных, так и у зависимой переменной были нулевые математические ожидания и единичные дисперсии.
 Для данных без шумовых признаков алгоритм был запущен сто раз на разных подвыборках размера <tex>90</tex> (размер полной выборки --- <tex>103</tex>).
-Результаты приведены на рисунке \ref{fig:realDatanoNoise}.
+Результаты приведены на рисунке.
 Видно, что признаки разделяются по информативности и что информативность почти всегда эквивалента модулю веса.
+Слева - веса полученные на каждом из ста запусков алгоритма, справа --- соответсвтующие им гиперпараметры.
 [[Изображение:WeightArrayNoNoise.png|500px|Веса <tex>w_i</tex>]]
@@ Строка 113: / Строка 114: @@
 Так же был проведен следующий эксперимент.
 К начальному набору свободных переменных был добавлен ряд шумовых признаков, затем на ста запусках была оценена  <tex>95</tex>-процентная квантиль рассматриваемой величины.
-На рисунке \ref{fig:realDataNoise} видно, что увеличение числа шумовых признаков увеличивает, хоть и не сильно, квантиль как оценки параметра, так и оценки гиперпараметра для разных признаков.
+На рисунке видно, что увеличение числа шумовых признаков увеличивает, хоть и не сильно, квантиль как оценки параметра, так и оценки гиперпараметра для разных признаков.
 Отметим, что, тем не менее, это не влияет на разделимость признаков по информативности.