Описание окрестности точки наибольшего правдоподобия моделей (пример)
Материал из MachineLearning.
(→Постановка задачи) |
|||
Строка 1: | Строка 1: | ||
== Постановка задачи == | == Постановка задачи == | ||
- | Пусть, | + | Пусть задана выборка <tex>D = \{(\mathbf{x}^i, y^i\)}</tex> из m пар. |
- | <tex>X = \{\mathbf{x}^i\}^m_{i=1}</tex> - множество из m | + | <tex>X = \{\mathbf{x}^i\}^m_{i=1}</tex> - множество из m объектов, |
- | <tex>\{ | + | <tex>\mathbf{x}^i = [x^i_1, \ldots, x^i_n]^T \in\mathbb{R}^n</tex> , где n - количество признаков, а |
- | <tex>\mathbf{y}\in\mathbb{R}^ | + | <tex>y^i\in\mathbb{R}</tex> - соответствующая зависимая переменная. |
- | + | ||
+ | <tex>\mathbf{x}_j = [x^1_j, \ldots, x^m_j]^T \in\mathbb{R}^m</tex> - вектор значений j-ого признака, а | ||
+ | <tex>\mathbf{y} = [y^1, \ldots, y^m]^T \in\mathbb{R}^m</tex> - вектор целевого признака. | ||
+ | |||
+ | Пусть <tex>D = ([\mathbf{x}_1, \ldots, \mathbf{x}_n], \mathbf{y}) = (X, \mathbf{y})</tex> | ||
+ | |||
+ | Пусть <tex>I = \{1, \ldots, m\}</tex> - множество индексов объектов, | ||
+ | <tex>J = \{1, \ldots,n\}</tex> - множество индексов признаков. <tex>A\subseteq J</tex> - подмножество активных признаков. | ||
Рассмотрим следующую линейную модель регрессии, описывающую связь между свободными и зависимой переменными | Рассмотрим следующую линейную модель регрессии, описывающую связь между свободными и зависимой переменными |
Версия 10:22, 15 декабря 2010
Содержание |
Постановка задачи
Пусть задана выборка из m пар.
- множество из m объектов, , где n - количество признаков, а - соответствующая зависимая переменная.
- вектор значений j-ого признака, а - вектор целевого признака.
Пусть
Пусть - множество индексов объектов, - множество индексов признаков. - подмножество активных признаков.
Рассмотрим следующую линейную модель регрессии, описывающую связь между свободными и зависимой переменными
где - нормальное распределение.
Множество задаёт регрессионную модель и вектор весов .
Требуется найти такую модель оптимальной структуры признаков , которая доставляет наименьшее значение функционалу качества (?).
Порождение свободных переменных
Множества измеряемых признаков бывает недостаточно для построения модели удовлетворительного качества. Требуется расширить множество признаков с помощью функциональных преобразований.
Предлагается следующий способ порождения новых признаков:
Пусть задано множество свободных переменных и конечное множество порождающих функций .
Обозначим , где индекс .
Рассмотрим декартово произведение , где элементу ставится в соответствие суперпозиция , однозначно определяемая индексами .
В качестве модели, описывающей отношение между зависимой переменной и свободными переменными , используется полином Колмогорова-Габора:
где и .
- множество индексов, размерности N.
Возвращаясь к формуле (1):
Алгоритм
Рассмотрим алгоритм, состоящий из двух шагов. На первом шаге мы будем добавлять признаки один за другим к нашей модели соглалсано критерию (2). На втором шаге мы будем удалять признаки по одному из нашей модели согласно тому же критерию (2).
Пусть на -ом шагу алгоритма имеется множество признаков , которое определяет матрицу : . На нулевом шаге . Опишем -ый шаг алгоритма.
1. "Шаг добавления"
Добавляем признак
Вычислительный эксперимент
Исходный код
Литература
- Стрижов В.В Методы выбора регрессионных моделей. — ВЦ РАН, 2010.