Описание окрестности точки наибольшего правдоподобия моделей (пример)
Материал из MachineLearning.
(→Постановка задачи) |
(→Постановка задачи) |
||
Строка 20: | Строка 20: | ||
- | <center><tex>\mathbf{y} = f_A(X, \mathbf{w}) = X \mathbf{w}</tex> , (1)</center> | + | <center><tex>\mathbf{y} = f_A(X, \mathbf{w}) + \mathbf{\varepsilon} = X \mathbf{w} + \mathbf{\varepsilon}</tex> , (1)</center> |
- | где <tex>\mathbf{w} = [\ldots, w_j, \ldots]^T_{j\in A}</tex> - вектор параметров регрессии | + | где <tex>\mathbf{w} = [\ldots, w_j, \ldots]^T_{j\in A}</tex> - вектор параметров регрессии, а случайная аддитивная переменная <tex>\mathbf{\varepsilon}</tex> регрессионной модели имеет нормальное распределение |
- | + | ||
- | + | ||
- | + | ||
<tex>\varepsilon \in N(0, \sigma^2)</tex>. | <tex>\varepsilon \in N(0, \sigma^2)</tex>. | ||
Распределение зависимой переменной будет иметь следующий вид: | Распределение зависимой переменной будет иметь следующий вид: | ||
- | |||
<center><tex>p(y|x, \mathbf{w}, \sigma^2, f) = \frac{exp(-\frac{1}{\sigma^2}S)}{(2\pi\sigma^2){\frac{n}{2}}},</tex></center> | <center><tex>p(y|x, \mathbf{w}, \sigma^2, f) = \frac{exp(-\frac{1}{\sigma^2}S)}{(2\pi\sigma^2){\frac{n}{2}}},</tex></center> | ||
Строка 37: | Строка 33: | ||
где <tex>S</tex> - сумма квадратов невязок <tex>y^i - f(\mathbf{x}^i, \mathbf{w})</tex>. Согласно оценки точки наибольшего правдоподобия, данное распределение задаёт критерий качества модели, равный сумме квадратов регрессионных остатков. | где <tex>S</tex> - сумма квадратов невязок <tex>y^i - f(\mathbf{x}^i, \mathbf{w})</tex>. Согласно оценки точки наибольшего правдоподобия, данное распределение задаёт критерий качества модели, равный сумме квадратов регрессионных остатков. | ||
- | |||
<center><tex>S = \sum_{i\in \Theta} (y^i - f(\mathbf{x}^i, \mathbf{w}))^2</tex> , (2)</center> | <center><tex>S = \sum_{i\in \Theta} (y^i - f(\mathbf{x}^i, \mathbf{w}))^2</tex> , (2)</center> |
Версия 13:48, 15 декабря 2010
Содержание |
Постановка задачи
Пусть задана выборка из m пар.
- множество из m объектов, , где n - количество признаков, а - соответствующая зависимая переменная.
- вектор значений j-ого признака, а - вектор целевого признака.
Пусть - множество индексов объектов,
- множество индексов признаков. - подмножество активных признаков.
Множество задаёт регрессионную модель , а - сложность модели.
Рассмотрим следующую линейную модель регрессии, описывающую связь между свободными и зависимой переменными
где - вектор параметров регрессии, а случайная аддитивная переменная регрессионной модели имеет нормальное распределение
.
Распределение зависимой переменной будет иметь следующий вид:
где - сумма квадратов невязок . Согласно оценки точки наибольшего правдоподобия, данное распределение задаёт критерий качества модели, равный сумме квадратов регрессионных остатков.
где - некоторое множество индексов. Этот критерий используется при выборе модели в дальнейшем.
Требуется найти такую модель оптимальной структуры признаков , которая доставляет наименьшее значение функционалу качества (2).
Порождение свободных переменных
Множества измеряемых признаков бывает недостаточно для построения модели удовлетворительного качества. Требуется расширить множество признаков с помощью функциональных преобразований.
Предлагается следующий способ порождения новых признаков:
Пусть задано множество свободных переменных и конечное множество порождающих функций .
Обозначим , где индекс .
Рассмотрим декартово произведение , где элементу ставится в соответствие суперпозиция , однозначно определяемая индексами .
В качестве модели, описывающей отношение между зависимой переменной и свободными переменными , используется полином Колмогорова-Габора:
где и .
- множество индексов, размерности N.
Алгоритм
Рассмотрим алгоритм, состоящий из двух шагов.
На первом шаге мы будем добавлять признаки один за другим к нашей модели согласно критерию качества модели (2).
На втором шаге мы будем удалять признаки по одному из нашей модели согласно тому же критерию качества (2).
Пусть на -ом шагу алгоритма имеется множество признаков , которое определяет матрицу : . На нулевом шаге . Опишем -ый шаг алгоритма.
1. "Шаг добавления"
Добавляем признак
Вычислительный эксперимент
Исходный код
Литература
- Стрижов В.В Методы выбора регрессионных моделей. — ВЦ РАН, 2010.