Обсуждение:Логистическая регрессия
Материал из MachineLearning.
| Строка 1: | Строка 1: | ||
| - | + | {{TOCright}} Изначальная версия статьи | |
| + | '''Логистическая регрессия''' (Logistic regression) — метод построения [[Линейный классификатор|линейного классификатора]], позволяющий оценивать апостериорные вероятности принадлежности объектов классам. | ||
| - | + | == Определения == | |
| - | + | Пусть объекты описываются ''n'' числовыми признаками | |
| + | <tex>f_j:\: X\to\mathbb{R},\; j=1,\ldots,n</tex>. | ||
| + | Тогда пространство признаковых описаний объектов есть <tex>X=\mathbb{R}^n</tex>. | ||
| + | Пусть <tex>Y</tex> — конечное множество номеров (имён, меток) классов. | ||
| - | = | + | Пусть задана [[обучающая выборка]] пар «объект, ответ» |
| + | <tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}</tex>. | ||
| - | + | === Случай двух классов === | |
| - | <tex> | + | Положим <tex>Y=\{-1,+1\}</tex>. |
| - | <tex> | + | В логистической регрессии строится линейный алгоритм классификации <tex>a:\; X\to Y</tex> вида |
| - | <tex> | + | ::<tex>a(x,w) = \mathrm{sign}\left( \sum_{j=1}^n w_j f_j(x) - w_0 \right) = \mathrm{sign}\langle x,w \rangle,</tex> |
| + | где | ||
| + | <tex>w_j</tex> — вес <tex>j</tex>-го признака, | ||
| + | <tex>w_0</tex> — порог принятия решения, | ||
| + | <tex>w=(w_0,w_1,\ldots,w_n)</tex> — вектор весов, | ||
| + | <tex>\langle x,w \rangle</tex> — скалярное произведение признакового описания объекта на вектор весов. | ||
| + | Предполагается, что искусственно введён «константный» нулевой признак: <tex>f_{0}(x)=-1</tex>. | ||
| - | + | Задача обучения линейного классификатора заключается в том, чтобы по выборке | |
| + | <tex>X^m</tex> | ||
| + | настроить вектор весов <tex>w</tex>. | ||
| + | В логистической регрессии для этого решается задача [[минимизация эмпирического риска|минимизации эмпирического риска]] с функцией потерь специального вида: | ||
| + | {{eqno|1}} | ||
| + | ::<tex>Q(w) = \sum_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}.</tex> | ||
| - | <tex> | + | После того, как решение <tex>w</tex> найдено, |
| - | + | становится возможным не только вычислять классификацию <tex>a(x) = \mathrm{sign}\langle x,w \rangle</tex> | |
| - | </tex> | + | для произвольного объекта <tex>x</tex>, |
| + | но и оценивать апостериорные вероятности его принадлежности классам: | ||
| + | {{eqno|2}} | ||
| + | ::<tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y,</tex> | ||
| + | где <tex>\sigma(z) = \frac1{1+e^{-z}}</tex> — [[сигмоидная функция]]. | ||
| + | Во многих приложениях апостериорные вероятности необходимы для оценивания рисков, | ||
| + | связанных с возможными ошибками классификации. | ||
| - | + | == Обоснования == | |
| - | + | === С точки зрения минимизации эмпирического риска === | |
| + | Введём понятие ''[[отступ]]а'' (margin) объекта | ||
| + | ::<tex>M(x_i) = y_i \langle x_i,w \rangle.</tex> | ||
| + | Отступ можно понимать как «степень погруженности» объекта в свой класс. | ||
| + | Чем меньше значение отступа <tex>M(x_i)</tex>, тем ближе объект подходит к границе классов. | ||
| + | Отступ <tex>M(x_i)</tex> отрицателен тогда и только тогда, когда | ||
| + | алгоритм <tex>a(x,w)</tex> допускает ошибку на объекте <tex>x_i</tex>. | ||
| + | Число ошибок классификации можно записать через отступы: | ||
| + | ::<tex>Q_0(w) = \sum_{i=1}^m \bigl[ M(x_i) < 0 \bigr].</tex> | ||
| + | Под знаком суммы стоит пороговая функция потерь, | ||
| + | поэтому данный функционал не является ни выпуклым, ни даже непрерывным, | ||
| + | и минимизировать его неудобно. | ||
| + | Идея заключается в том, чтобы заменить пороговую функцию потерь непрерывной оценкой сверху: | ||
| + | ::<tex>[M<0] \leq \log_2 \left( 1 + e^{-M} \right).</tex> | ||
| + | В результате такой замены и получается функционал {{eqref|1}}. | ||
| - | + | === С точки зрения байесовской классификации === | |
| - | + | Наиболее строгое обоснование логистической регрессии опирается на следующую теорему. | |
| - | + | ||
| - | + | '''Теорема.''' | |
| + | Пусть: | ||
| + | * функции правдоподобия (плотности распределения) классов <tex>p_y(x)</tex> принадлежат [[экспонентное семейство плотностей|экспонентному семейству плотностей]] <tex>p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right),</tex> где <tex>a,\, b\, d</tex> — произвольные функции; | ||
| + | * функции правдоподобия имеют равные знаения ''параметра разброса'' <tex>\delta</tex> и отличаются только значениями ''параметра сдвига'' <tex>\theta_y</tex>; | ||
| + | * среди признаков есть константа, скажем, <tex>f_0(x) = -1</tex>. | ||
| - | + | Тогда | |
| - | + | * линейный классификатор является [[байесовский классификатор|оптимальным байесовским классификатором]]; | |
| - | + | * апостериорные вероятности классов оценивается по формуле {{eqref|2}}; | |
| + | * минимизация функционала {{eqref|1}} эквивалентна [[принцип максимума правдоподобия|максимизации правдоподобия]] выборки. | ||
| - | + | Таким образом, оценки апостериорных вероятностей {{eqref|2}} являются точными | |
| + | только при довольно сильных теоретико-вероятностных предположениях. | ||
| + | На практике гарантировать выполнение этих условий вряд ли возможно. | ||
| + | Поэтому трактовать выходы сигмоидных функций как вероятности следует с большой осторожностью. | ||
| + | На самом деле они дают лишь оценку удалённости объекта от границы классов, | ||
| + | нормированную так, чтобы она принимала значения из отрезка <tex>[0,1]</tex>. | ||
| - | + | == Методы настройки весов == | |
| - | === | + | === Градиентный метод первого порядка === |
| - | + | === Метод второго порядка IRLS === | |
| + | Метод Ньютона-Раффсона является градиентным методом оптимизации второго порядка. | ||
| + | Его применение для минимизации {{eqref|1}} приводит к [[Метод наименьших квадратов с итеративным пересчетом весов|методу наименьших квадратов с итеративным пересчетом весов]] IRLS. | ||
| - | <tex> | + | == Связь с другими методами обучения == |
| - | + | * Логистическая регрессия является частным случаем [[Обобщённая линейная модель|обобщённой линейной модели]] регрессии. | |
| - | </tex> | + | * На каждом шаге метода IRLS решается стандартная задача наименьших квадратов для многомерной линейной регрессии. |
| + | * Градиентный метод минимизации первого порядка является сглаженным вариантом [[правило Хэбба|правила Хэбба]], предназначенного для обучения [[однослойный персептрон|однослойного персептрона]]. | ||
| + | * [[Линейный дискриминант Фишера]] (ЛДФ) и логистическая регрессия исходят из [[байесовский классификатор|байесовского решающего правила]] и принципа максимума правдоподобия, однако результат получается разный. В ЛДФ приходится оценивать <tex>n(n+1)/2</tex> параметров, в логистической регрессии — только <tex>n</tex>. ЛДФ решает вспомогательную задачу восстановления плотностей распределения классов, предполагая к тому же, что плотности нормальны. Логистическая регрессия не пытается восстанавливать плотности классов и опирается на более слабые предположения о виде плотностей. С точки зрения [[Бритва Оккама|принципа Оккама]] «не размножать сущности без необходимости» логистическая регрессия явно предпочтительнее, поскольку ЛДФ вводит избыточную сущность — плотности распределения классов, и сводит задачу классификации к более сложной задаче восстановления плотностей. | ||
| - | + | == Литература == | |
| + | # ''Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989. | ||
| + | # {{П:Hastie 2001 The Elements of Statistical Learning}} | ||
| + | # ''David W. Hosmer'', ''Stanley Lemeshow''. [http://eu.wiley.com/WileyCDA/WileyTitle/productCd-0471356328.html Applied Logistic Regression], 2nd ed. New York, Chichester, Wiley. 2002. 392 P. ISBN 0-471-35632-8. | ||
| - | + | == Ссылки == | |
| + | # [[Машинное обучение (курс лекций, К.В.Воронцов)]] | ||
| + | # [[Логистическая регрессия (пример)]] | ||
| - | + | {{Stub}} | |
| - | + | [[Категория:Линейные классификаторы]] | |
| - | + | [[Категория:Машинное обучение]] | |
| - | + | [[Категория:Классификация]] | |
| - | + | [[Категория:Бинарные классификаторы]] | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
Текущая версия
|
Логистическая регрессия (Logistic regression) — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
Определения
Пусть объекты описываются n числовыми признаками
.
Тогда пространство признаковых описаний объектов есть
.
Пусть
— конечное множество номеров (имён, меток) классов.
Пусть задана обучающая выборка пар «объект, ответ»
.
Случай двух классов
Положим .
В логистической регрессии строится линейный алгоритм классификации
вида
где
— вес
-го признака,
— порог принятия решения,
— вектор весов,
— скалярное произведение признакового описания объекта на вектор весов.
Предполагается, что искусственно введён «константный» нулевой признак:
.
Задача обучения линейного классификатора заключается в том, чтобы по выборке
настроить вектор весов
.
В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида:
После того, как решение найдено,
становится возможным не только вычислять классификацию
для произвольного объекта
,
но и оценивать апостериорные вероятности его принадлежности классам:
где — сигмоидная функция.
Во многих приложениях апостериорные вероятности необходимы для оценивания рисков,
связанных с возможными ошибками классификации.
Обоснования
С точки зрения минимизации эмпирического риска
Введём понятие отступа (margin) объекта
Отступ можно понимать как «степень погруженности» объекта в свой класс.
Чем меньше значение отступа , тем ближе объект подходит к границе классов.
Отступ
отрицателен тогда и только тогда, когда
алгоритм
допускает ошибку на объекте
.
Число ошибок классификации можно записать через отступы:
Под знаком суммы стоит пороговая функция потерь, поэтому данный функционал не является ни выпуклым, ни даже непрерывным, и минимизировать его неудобно. Идея заключается в том, чтобы заменить пороговую функцию потерь непрерывной оценкой сверху:
В результате такой замены и получается функционал (1).
С точки зрения байесовской классификации
Наиболее строгое обоснование логистической регрессии опирается на следующую теорему.
Теорема. Пусть:
- функции правдоподобия (плотности распределения) классов
принадлежат экспонентному семейству плотностей
где
— произвольные функции;
- функции правдоподобия имеют равные знаения параметра разброса
и отличаются только значениями параметра сдвига
;
- среди признаков есть константа, скажем,
.
Тогда
- линейный классификатор является оптимальным байесовским классификатором;
- апостериорные вероятности классов оценивается по формуле (2);
- минимизация функционала (1) эквивалентна максимизации правдоподобия выборки.
Таким образом, оценки апостериорных вероятностей (2) являются точными
только при довольно сильных теоретико-вероятностных предположениях.
На практике гарантировать выполнение этих условий вряд ли возможно.
Поэтому трактовать выходы сигмоидных функций как вероятности следует с большой осторожностью.
На самом деле они дают лишь оценку удалённости объекта от границы классов,
нормированную так, чтобы она принимала значения из отрезка .
Методы настройки весов
Градиентный метод первого порядка
Метод второго порядка IRLS
Метод Ньютона-Раффсона является градиентным методом оптимизации второго порядка. Его применение для минимизации (1) приводит к методу наименьших квадратов с итеративным пересчетом весов IRLS.
Связь с другими методами обучения
- Логистическая регрессия является частным случаем обобщённой линейной модели регрессии.
- На каждом шаге метода IRLS решается стандартная задача наименьших квадратов для многомерной линейной регрессии.
- Градиентный метод минимизации первого порядка является сглаженным вариантом правила Хэбба, предназначенного для обучения однослойного персептрона.
- Линейный дискриминант Фишера (ЛДФ) и логистическая регрессия исходят из байесовского решающего правила и принципа максимума правдоподобия, однако результат получается разный. В ЛДФ приходится оценивать
параметров, в логистической регрессии — только
. ЛДФ решает вспомогательную задачу восстановления плотностей распределения классов, предполагая к тому же, что плотности нормальны. Логистическая регрессия не пытается восстанавливать плотности классов и опирается на более слабые предположения о виде плотностей. С точки зрения принципа Оккама «не размножать сущности без необходимости» логистическая регрессия явно предпочтительнее, поскольку ЛДФ вводит избыточную сущность — плотности распределения классов, и сводит задачу классификации к более сложной задаче восстановления плотностей.
Литература
- Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
- Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p. (подробнее)
- David W. Hosmer, Stanley Lemeshow. Applied Logistic Regression, 2nd ed. New York, Chichester, Wiley. 2002. 392 P. ISBN 0-471-35632-8.

