Шаговая регрессия (пример)

Материал из MachineLearning.

(Различия между версиями)

Версия 21:09, 24 апреля 2010

Содержание

1 Шаговая регрессия (stepwise regression)
2 Постановка задачи
3 Описание алгоритма

Логистическая регрессия - частный случай обобщенной линейной регрессии. Предполагается, что зависимая переменная принимает два значения и имеет биномиальное распределение

В данной статье рассматриваются два алгоритма отбора признаков линейной регрессии: метод наименьших углов и шаговая регрессия.

Метод наименьших углов (англ. least angle regression, LARS) - алгоритм отбора признаков в задачах линейной регрессии. При большом количестве свободных переменных возникает проблема неустойчивого оценивания весов модели. LARS предлагает метод выбора такого набора свободных переменных, который имел бы наиболее значимую статистическую связь с зависимой переменной. Также LARS предлагает метод оценки весов.

Шаговая регрессия (stepwise regression)

Цель пошаговой регрессии состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной.

Пусть нам задана регрессионная модель

$y= f(\beta, x) +\mathbf{\varepsilon}$ .

Алгоритм заключается в последовательном добавлении и удалении признаков согласно определённому критерию. Обычно используется F- критерий, который имеет вид

$F={\frac{S_1-S_2}{S_2}}{\frac{m-p_2}{p_1-p_2}$

где индекс 2 соответствует второй регрессионной модели , индекс 1 соответствует первой регрессионной модели, которая является модификацией второй модели; $p_1, p_2$ - соответствующие числа параметров модели; $S$ - сумма квадратов невязок, задающий критерий качества модели.

$S=\sum_{i} {(y^i-f(\beta, x^i))^2$ .

Шаговая регрессия включает два основных шага: шаг Add (последовательное добавление признаков) и шаг Del (последовательное удаление признаков).

Постановка задачи

Задана выборка - матрица $X$ , столбцы которой соответствуют независимым переменным, а строки - элементам выборки и вектор $\mathbf{y}$ , содержащий элементы зависимой переменной. Назначена линейная модель $\mathbf{y}=X\mathbf{\beta}+\mathbf{\varepsilon}$ .

Требуется найти набор признаков (столбцов матрицы $X$ ) , удовлетворяющий F-критерию.

Описание алгоритма

Обозначим текущий набор признаков $A$ . Начальным набором является пустой набор $A= \emptyset$ . К текущему набору $A$ присоединяется по одному признаку, который дoставляет максимум F-критерию или

$j^*= arg \max_{j\in J}F_add= arg \max_{j\in J}{\frac{S(A)-S(A\cup x_j)}{S(A\cup x_j)}}$

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A8%D0%B0%D0%B3%D0%BE%D0%B2%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29»

@@ Строка 37: / Строка 37: @@
 == Описание алгоритма ==
-Обозначим текущий набор признаков <tex> A </tex>. Начальным набором является пустой набор <tex> A= \emptyset</tex>. К текущему набору <tex> A </tex> присоединяется по одному признаку, который даставляет максимум F-критерию или
+Обозначим текущий набор признаков <tex> A </tex>. Начальным набором является пустой набор <tex> A= \emptyset</tex>. К текущему набору <tex> A </tex> присоединяется по одному признаку, который дoставляет максимум F-критерию или
 ::<tex> j^*= arg \max_{j\in J}F_add= arg \max_{j\in J}{\frac{S(A)-S(A\cup x_j)}{S(A\cup x_j)}} </tex>

Шаговая регрессия (пример)

Материал из MachineLearning.

Версия 21:09, 24 апреля 2010

Содержание

Шаговая регрессия (stepwise regression)

Постановка задачи

Описание алгоритма

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты