Описание окрестности точки наибольшего правдоподобия моделей (пример)

Материал из MachineLearning.

Версия от 10:57, 15 декабря 2010; Pavel Minaev (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Постановка задачи
2 Порождение свободных переменных
3 Алгоритм
4 Вычислительный эксперимент
5 Исходный код
6 Литература

Постановка задачи

Пусть задана выборка $D = \{(\mathbf{x}^i, y^i\)}$ из m пар.

$X = \{\mathbf{x}^i\}^m_{i=1}$ - множество из m объектов, $\mathbf{x}^i = [x^i_1, \ldots, x^i_n]^T \in\mathbb{R}^n$ , где n - количество признаков, а $y^i\in\mathbb{R}$ - соответствующая зависимая переменная.

$\mathbf{x}_j = [x^1_j, \ldots, x^m_j]^T \in\mathbb{R}^m$ - вектор значений j-ого признака, а $\mathbf{y} = [y^1, \ldots, y^m]^T \in\mathbb{R}^m$ - вектор целевого признака.

$D = ([\mathbf{x}_1, \ldots, \mathbf{x}_n], \mathbf{y}) = (X, \mathbf{y})$

Пусть $I = \{1, \ldots, m\}$ - множество индексов объектов, $J = \{1, \ldots,n\}$ - множество индексов признаков. $A\subseteq J$ - подмножество активных признаков. Множество $A$ задаёт регрессионную модель $f_A$ , а $c_f = |A|$ - сложность модели.

Рассмотрим следующую линейную модель регрессии, описывающую связь между свободными и зависимой переменными

$\mathbf{y} = f_A(X, \mathbf{w}) = X \mathbf{w}$ , (1)

где $\mathbf{w} = [\ldots, w_j, \ldots]^T_{j\in A}$ - вектор параметров регрессии.

Пусть случайная аддитивная переменная $\mathbf{\varepsilon}$ регрессионной модели $\mathbf{y} = f(X, \mathbf{w}) + \mathbf{\varepsilon}$ имеет нормальное распределение $\varepsilon \in N(0, \sigma^2)$ .

Распределение зависимой переменной будет иметь следующий вид:

$p(y|x, \mathbf{w}, \sigma^2, f) = \frac{exp(-\frac{1}{\sigma^2}S)}{(2\pi\sigma^2){\frac{n}{2}}},$

где $S$ - сумма квадратов невязок $y^i - f(\mathbf{x}^i, \mathbf{w})$ . Согласно оценки точки наибольшего правдоподобия, данное распределение задаёт критерий качества модели, равный сумме квадратов регрессионных остатков.

$S = \sum_{i\in \Theta} (y^i - f(\mathbf{x}^i, \mathbf{w}))^2$ , (2)

где $\Theta \subseteq I$ - некоторое множество индексов. Этот критерий используется при выборе модели в дальнейшем.

Требуется найти такую модель оптимальной структуры признаков $F$ , которая доставляет наименьшее значение функционалу качества (2).

Порождение свободных переменных

Множества измеряемых признаков бывает недостаточно для построения модели удовлетворительного качества. Требуется расширить множество признаков с помощью функциональных преобразований.

Предлагается следующий способ порождения новых признаков:

Пусть задано множество свободных переменных $Z = \{\xi_u\}^U_{u=1}$ и конечное множество порождающих функций $G = \{g_v\}^V_{v=1}$ .

Обозначим $a_i = g_v(\xi_u)$ , где индекс $i = (v - 1)U + u$ .

Рассмотрим декартово произведение $Z \times G$ , где элементу $(g_v,\xi_u)$ ставится в соответствие суперпозиция $g_v(\xi_u)$ , однозначно определяемая индексами $v,u$ .

В качестве модели, описывающей отношение между зависимой переменной $y$ и свободными переменными $a_i$ , используется полином Колмогорова-Габора:

$y=w_0+\sum_{\alpha=1}^{UV}w_{\alpha}a_{\alpha} + \sum_{\alpha=1}^{UV}\sum_{\beta=1}^{UV}w_{{\alpha}{\beta}}a_{\alpha}a_{\beta} + \ldots +\sum_{\alpha=1}^{UV}\ldots\sum_{\psi=1}^{UV}w_{{\alpha} \ldots {\psi}}a_{\alpha}\ldots a_{\psi}$ ,

где $\mathbf{w} = (w_0, w_{\alpha}, w_{\alpha\beta}, \ldots , w_{{\alpha} \ldots {\psi}})^T$ и ${\alpha, \beta, \ldots , \psi = 1 \ldots UV}$ .

$\{0\} \cup \{\alpha\} \cup \{\alpha,\beta\} \cup \ldots \cup \{\alpha,\beta \ldots \psi\} \rightarrow \Omega$ - множество индексов, размерности N.

$\xi_u~ \longrightarrow\longrightarrow\longrightarrow^{g_v}\longrightarrow\longrightarrow ~g_v(\xi_u) ~=^{def} a_i~\longrightarrow\longrightarrow^{\prod^{UV}_{\alpha=1}}\longrightarrow^{\ldots}\longrightarrow^{\prod^{UV}_{\psi=1}}\longrightarrow ~x_j$

Возвращаясь к формуле (1):

$y^i = \sum_{j=1}^{N}w_jx^i_j + \varepsilon^i$ (2)

Алгоритм

Рассмотрим алгоритм, состоящий из двух шагов. На первом шаге мы будем добавлять признаки один за другим к нашей модели соглалсано критерию (2). На втором шаге мы будем удалять признаки по одному из нашей модели согласно тому же критерию (2).

Пусть на $k$ -ом шагу алгоритма имеется множество признаков $A$ , которое определяет матрицу $X_A$ : $\mathbf{y} = X_A \mathbf{w}$ . На нулевом шаге $A_0 = \emptyset$ . Опишем $k$ -ый шаг алгоритма.