Шаговая регрессия

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (категория)
 
(4 промежуточные версии не показаны)
Строка 1: Строка 1:
== Шаговая регрессия (stepwise regression) ==
== Шаговая регрессия (stepwise regression) ==
-
Цель пошаговой [[Регрессия|регрессии]] состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной. Обычно этот процесс выполняет автоматизированная процедура, которая вводит или выводит предикаты из уравнения регрессии по очереди.
+
Цель пошаговой [[Регрессия|регрессии]] состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной. Обычно этот процесс выполняет автоматизированная процедура, которая вводит или выводит предикаты из уравнения регрессии по очереди, основываясь на серии [[F-тест Фишера|F-тестов]], [[Критерий Стьюдента|t-тестов]] или других подходах.
== Основные подходы ==
== Основные подходы ==
-
=== Прямое включение (прямая пошаговая регрессия) ===
+
====прямое включение (прямая пошаговая регрессия) ====
Вначале уравнение регрессии не содержит предикатов. Они вводятся по одному, если удовлетворяют определенному критерию. В основе порядка введения включаемых переменных лежит вклад переменной в объясняемую вариацию.
Вначале уравнение регрессии не содержит предикатов. Они вводятся по одному, если удовлетворяют определенному критерию. В основе порядка введения включаемых переменных лежит вклад переменной в объясняемую вариацию.
-
=== Исключение переменной (обратная пошаговая регрессия) ===
+
====исключение переменной (обратная пошаговая регрессия) ====
Вначале все предикаты входят в уравнение регрессии. Затем по очереди выводятся из уравнения исходя из их соответствия критерию.
Вначале все предикаты входят в уравнение регрессии. Затем по очереди выводятся из уравнения исходя из их соответствия критерию.
-
=== Пошаговый подход ===
+
====пошаговый подход ====
На каждой стадии прямое включение осуществляют одновременно с исключением переменных, которые больше не удовлетворяют конкретному критерию.
На каждой стадии прямое включение осуществляют одновременно с исключением переменных, которые больше не удовлетворяют конкретному критерию.
Строка 19: Строка 19:
== Алгоритмы ==
== Алгоритмы ==
-
Широко используемый алгоритм был предложен Эфроимсоном М.А. (1960). Это автоматизированная процедура для статистического выделения в случаях, когда есть большое число потенциально значащих переменных, и нет никакой модели, на которой можно было бы обосновать схему выделения. Хотя процедура в основном используется в регрессионном анализе, предложенных подход может быть применен во многих ситуациях выбора модели. Это вариация на прямое включение. На каждом этапе, после добавления новой переменной, проводится тест, чтобы определить могут ли быть выкинуты некоторые переменные без заметного увеличения [Остаточная сумма квадратов|остаточной суммы квадратов (RSS)].
+
Часто применяют пошаговый подход, когда последовательно включаются факторы в уравнение
 +
регрессии и после проверяется их значимость. Факторы поочередно вводятся
 +
в уравнение так называемым "прямым методом". При проверке значимости
 +
введенного фактора определяется, насколько уменьшается сумма квадратов
 +
остатков и увеличивается величина множественного коэффициента корреляции.
 +
Одновременно используется и обратный метод, т.е. исключение факторов,
 +
ставших незначимыми на основе t-критерия Стьюдента. Фактор является
 +
незначимым, если его включение в уравнение регрессии только изменяет
 +
значение коэффициентов регрессии, не уменьшая значительно суммы квадратов остатков и не
 +
увеличивая их значения. Если при включении в модель соответствующего
 +
факторного признака величина множественного коэффициента корреляции
 +
увеличивается, а коэффициент регрессии не изменяется (или меняется
 +
несущественно), то данный признак существен и его включение в уравнение
 +
регрессии необходимо.
== Недостатки ==
== Недостатки ==
-
* Часто для выбора добавляемой или удаляемой переменной используется последовательность [F-тест Фишера|F-тестов Фишера], который проводятся на одних и тех же данных, что приводит к проблеме [[Проблема множественных сравнений|преблеме множественных сравнений]]. Для борьбы с этим явлением разработано достаточно большое количество корректирующих критериев.
+
* Метод пошаговой регрессии не позволяет выводить оптимальные уравнения регрессии с точки зрения получения наибольшего коэффициента детерминации <tex>R^2</tex> для данного количества предикатов. Из-за корреляций между предикатами важная переменная может никогда не быть включена в уравнение, а второстепенные переменные будут введены в уравнение. Чтобы определить оптимальное уравнение регрессии, желательно просчитать варианты, в которых анализируются все возможные комбинации. Несмотря на это, пошаговая регрессия полезна в ситуации, когда размер выборки велик по сравнению с количеством предикатов.
-
* [P-Value] зависит от результата предшествующих тестов, что усложняет их интерпретацию.
+
* Часто для выбора добавляемой или удаляемой переменной используется последовательность [[F-тест Фишера|F-тестов Фишера]], который проводятся на одних и тех же данных, что приводит к проблеме [[Проблема множественных сравнений|проблеме множественных сравнений]]. Для борьбы с этим явлением разработано достаточно большое количество корректирующих критериев.
-
* Тесты являеются смещенными, так как проводятся на одних и тех же данных (Rencher and Pun, 1980, Copas, 1983)
+
* [[P-Value]] зависит от результата предшествующих тестов, что усложняет их интерпретацию.
 +
 
 +
* Тесты являются смещенными, так как проводятся на одних и тех же данных (Rencher and Pun, 1980, Copas, 1983)
 +
 
 +
== Внешние ресурсы ==
 +
 
 +
* [http://www.mathworks.com/access/helpdesk/help/toolbox/stats/index.html?/access/helpdesk/help/toolbox/stats/stepwise.html&http://www.google.ru/search?hl=ru&lr=&client=firefox-a&rls=org.mozilla:ru:official&q=regression+stepwise&start=10&sa=N Реализация в Matlab]
 +
 
 +
* [http://www.mngt.ru/rus/gathering_preparation_analysis/correlation_regress/step_by_step_regress/ Энциклопедия методов маркетинговых исследований]
 +
 
 +
* [http://en.wikipedia.org/wiki/Stepwise_regression Wikipedia (en)]
 +
 
 +
* [http://eric.ed.gov/ERICWebPortal/custom/portlets/recordDetails/detailmini.jsp?_nfpb=true&_&ERICExtSearch_SearchValue_0=ED393890&ERICExtSearch_SearchType_0=no&accno=ED393890 Статья "Stepwise Regression Is a Problem, Not a Solution" (en)]
 +
 
 +
* [http://www.sfu.ca/sasdoc/sashtml/stat/chap49/sect33.htm Пример исследования с применением пошаговой регрессии]
 +
 
 +
[[Категория:Регрессионный анализ]]
 +
[[Категория:Методы отбора признаков]]

Текущая версия

Содержание

Шаговая регрессия (stepwise regression)

Цель пошаговой регрессии состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной. Обычно этот процесс выполняет автоматизированная процедура, которая вводит или выводит предикаты из уравнения регрессии по очереди, основываясь на серии F-тестов, t-тестов или других подходах.

Основные подходы

прямое включение (прямая пошаговая регрессия)

Вначале уравнение регрессии не содержит предикатов. Они вводятся по одному, если удовлетворяют определенному критерию. В основе порядка введения включаемых переменных лежит вклад переменной в объясняемую вариацию.

исключение переменной (обратная пошаговая регрессия)

Вначале все предикаты входят в уравнение регрессии. Затем по очереди выводятся из уравнения исходя из их соответствия критерию.

пошаговый подход

На каждой стадии прямое включение осуществляют одновременно с исключением переменных, которые больше не удовлетворяют конкретному критерию.

Алгоритмы

Часто применяют пошаговый подход, когда последовательно включаются факторы в уравнение регрессии и после проверяется их значимость. Факторы поочередно вводятся в уравнение так называемым "прямым методом". При проверке значимости введенного фактора определяется, насколько уменьшается сумма квадратов остатков и увеличивается величина множественного коэффициента корреляции. Одновременно используется и обратный метод, т.е. исключение факторов, ставших незначимыми на основе t-критерия Стьюдента. Фактор является незначимым, если его включение в уравнение регрессии только изменяет значение коэффициентов регрессии, не уменьшая значительно суммы квадратов остатков и не увеличивая их значения. Если при включении в модель соответствующего факторного признака величина множественного коэффициента корреляции увеличивается, а коэффициент регрессии не изменяется (или меняется несущественно), то данный признак существен и его включение в уравнение регрессии необходимо.

Недостатки

  • Метод пошаговой регрессии не позволяет выводить оптимальные уравнения регрессии с точки зрения получения наибольшего коэффициента детерминации R^2 для данного количества предикатов. Из-за корреляций между предикатами важная переменная может никогда не быть включена в уравнение, а второстепенные переменные будут введены в уравнение. Чтобы определить оптимальное уравнение регрессии, желательно просчитать варианты, в которых анализируются все возможные комбинации. Несмотря на это, пошаговая регрессия полезна в ситуации, когда размер выборки велик по сравнению с количеством предикатов.
  • Часто для выбора добавляемой или удаляемой переменной используется последовательность F-тестов Фишера, который проводятся на одних и тех же данных, что приводит к проблеме проблеме множественных сравнений. Для борьбы с этим явлением разработано достаточно большое количество корректирующих критериев.
  • P-Value зависит от результата предшествующих тестов, что усложняет их интерпретацию.
  • Тесты являются смещенными, так как проводятся на одних и тех же данных (Rencher and Pun, 1980, Copas, 1983)

Внешние ресурсы

Личные инструменты