Описание окрестности точки наибольшего правдоподобия моделей (пример)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 2: Строка 2:
Пусть,
Пусть,
-
<tex>X = \{\mathbf{x}_j\}^m_{j=1}</tex> - множество из m свободных переменных,
+
<tex>X = \{\mathbf{x}^i\}^m_{i=1}</tex> - множество из m свободных переменных (объектов),
<tex>\{x_j\}^m_{i=j} \in\mathbb{R}^n</tex> , где n - размерность пространства,
<tex>\{x_j\}^m_{i=j} \in\mathbb{R}^n</tex> , где n - размерность пространства,
<tex>\mathbf{y}\in\mathbb{R}^n</tex> - зависимая переменная.
<tex>\mathbf{y}\in\mathbb{R}^n</tex> - зависимая переменная.
 +
Индекс признака <tex>j\in\Psi = \{1, \ldots,n\}</tex>. <tex>A\subseteq X</tex> - множество активных признаков.
Рассмотрим следующую линейную модель регрессии, описывающую связь между свободными и зависимой переменными
Рассмотрим следующую линейную модель регрессии, описывающую связь между свободными и зависимой переменными
Строка 14: Строка 15:
где <tex>\varepsilon \in N(0, \sigma^2)</tex> - нормальное распределение.
где <tex>\varepsilon \in N(0, \sigma^2)</tex> - нормальное распределение.
-
задача?
+
Множество <tex>A</tex> задаёт регрессионную модель <tex>f_A</tex> и вектор весов <tex>\mathbf{w} = [\ldots, w_j, \ldots]^T_{j\in A}</tex>.
 +
 
 +
Требуется найти такую модель оптимальной структуры признаков <tex>F</tex>, которая доставляет наименьшее значение функционалу качества (?).
== Порождение свободных переменных ==
== Порождение свободных переменных ==
Строка 45: Строка 48:
== Алгоритм ==
== Алгоритм ==
 +
Рассмотрим алгоритм, состоящий из двух шагов.
 +
На первом шаге мы будем добавлять признаки один за другим к нашей модели соглалсано критерию (2).
 +
На втором шаге мы будем удалять признаки по одному из нашей модели согласно тому же критерию (2).
 +
 +
Пусть на <tex>k</tex>-ом шагу алгоритма имеется множество признаков <tex>A</tex>, которое определяет матрицу <tex>X_A</tex>: <tex>\mathbf{y} = X_A \mathbf{w}</tex>. На нулевом шаге <tex>A_0 = \emptyset</tex>. Опишем <tex>k</tex>-ый шаг алгоритма.
 +
 +
1. "Шаг добавления"
 +
Добавляем признак <tex>j \in </tex>
== Вычислительный эксперимент ==
== Вычислительный эксперимент ==

Версия 09:30, 15 декабря 2010

Содержание

Постановка задачи

Пусть,

X = \{\mathbf{x}^i\}^m_{i=1} - множество из m свободных переменных (объектов), \{x_j\}^m_{i=j} \in\mathbb{R}^n , где n - размерность пространства, \mathbf{y}\in\mathbb{R}^n - зависимая переменная. Индекс признака j\in\Psi = \{1, \ldots,n\}. A\subseteq X - множество активных признаков.

Рассмотрим следующую линейную модель регрессии, описывающую связь между свободными и зависимой переменными


\mathbf{y} = X \mathbf{w} + \mathbf{\varepsilon}       (1)


где \varepsilon \in N(0, \sigma^2) - нормальное распределение.

Множество A задаёт регрессионную модель f_A и вектор весов \mathbf{w} = [\ldots, w_j, \ldots]^T_{j\in A}.

Требуется найти такую модель оптимальной структуры признаков F, которая доставляет наименьшее значение функционалу качества (?).

Порождение свободных переменных

Множества измеряемых признаков бывает недостаточно для построения модели удовлетворительного качества. Требуется расширить множество признаков с помощью функциональных преобразований.

Предлагается следующий способ порождения новых признаков:

Пусть задано множество свободных переменных Z = \{\xi_u\}^U_{u=1} и конечное множество порождающих функций G = \{g_v\}^V_{v=1}.

Обозначим a_i = g_v(\xi_u), где индекс i = (v - 1)U + u.

Рассмотрим декартово произведение Z \times G, где элементу (g_v,\xi_u) ставится в соответствие суперпозиция g_v(\xi_u), однозначно определяемая индексами v,u.

В качестве модели, описывающей отношение между зависимой переменной y и свободными переменными a_i, используется полином Колмогорова-Габора:


y=w_0+\sum_{\alpha=1}^{UV}w_{\alpha}a_{\alpha} + \sum_{\alpha=1}^{UV}\sum_{\beta=1}^{UV}w_{{\alpha}{\beta}}a_{\alpha}a_{\beta} + \ldots +\sum_{\alpha=1}^{UV}\ldots\sum_{\psi=1}^{UV}w_{{\alpha} \ldots {\psi}}a_{\alpha}\ldots a_{\psi}
,


где \mathbf{w} = (w_0, w_{\alpha}, w_{\alpha\beta}, \ldots , w_{{\alpha} \ldots {\psi}})^T и {\alpha, \beta, \ldots , \psi = 1 \ldots UV}.


 \{0\} \cup \{\alpha\} \cup \{\alpha,\beta\} \cup \ldots \cup \{\alpha,\beta \ldots \psi\} \rightarrow \Omega - множество индексов, размерности N.

\xi_u~ \longrightarrow\longrightarrow\longrightarrow^{g_v}\longrightarrow\longrightarrow ~g_v(\xi_u) ~=^{def} a_i~\longrightarrow\longrightarrow^{\prod^{UV}_{\alpha=1}}\longrightarrow^{\ldots}\longrightarrow^{\prod^{UV}_{\psi=1}}\longrightarrow  ~x_j

Возвращаясь к формуле (1):

y^i = \sum_{j=1}^{N}w_jx^i_j + \varepsilon^i    (2)

Алгоритм

Рассмотрим алгоритм, состоящий из двух шагов. На первом шаге мы будем добавлять признаки один за другим к нашей модели соглалсано критерию (2). На втором шаге мы будем удалять признаки по одному из нашей модели согласно тому же критерию (2).

Пусть на k-ом шагу алгоритма имеется множество признаков A, которое определяет матрицу X_A: \mathbf{y} = X_A \mathbf{w}. На нулевом шаге A_0 = \emptyset. Опишем k-ый шаг алгоритма.

1. "Шаг добавления"

Добавляем признак j \in

Вычислительный эксперимент

Исходный код

Литература

  1. Стрижов В.В Методы выбора регрессионных моделей. — ВЦ РАН, 2010.

 

Личные инструменты