Логистическая регрессия

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Ссылки: добавлена ссылка на пример)
(Случай двух классов)
 
(2 промежуточные версии не показаны)
Строка 32: Строка 32:
После того, как решение <tex>w</tex> найдено,
После того, как решение <tex>w</tex> найдено,
становится возможным не только вычислять классификацию <tex>a(x) = \mathrm{sign}\langle x,w \rangle</tex>
становится возможным не только вычислять классификацию <tex>a(x) = \mathrm{sign}\langle x,w \rangle</tex>
-
для проивольного объекта <tex>x</tex>,
+
для произвольного объекта <tex>x</tex>,
но и оценивать апостериорные вероятности его принадлежности классам:
но и оценивать апостериорные вероятности его принадлежности классам:
{{eqno|2}}
{{eqno|2}}
-
::<tex>\mathbb{P}\{y|x\} = \sigma\left( -y \langle x,w \rangle\right),\;\; y\in Y,</tex>
+
::<tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y,</tex>
где <tex>\sigma(z) = \frac1{1+e^{-z}}</tex> — [[сигмоидная функция]].
где <tex>\sigma(z) = \frac1{1+e^{-z}}</tex> — [[сигмоидная функция]].
Во многих приложениях апостериорные вероятности необходимы для оценивания рисков,
Во многих приложениях апостериорные вероятности необходимы для оценивания рисков,
Строка 106: Строка 106:
[[Категория:Машинное обучение]]
[[Категория:Машинное обучение]]
[[Категория:Классификация]]
[[Категория:Классификация]]
 +
[[Категория:Бинарные классификаторы]]

Текущая версия

Содержание

Логистическая регрессия (Logistic regression) — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам.

Определения

Пусть объекты описываются n числовыми признаками f_j:\: X\to\mathbb{R},\; j=1,\ldots,n. Тогда пространство признаковых описаний объектов есть X=\mathbb{R}^n. Пусть Y — конечное множество номеров (имён, меток) классов.

Пусть задана обучающая выборка пар «объект, ответ» X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}.

Случай двух классов

Положим Y=\{-1,+1\}. В логистической регрессии строится линейный алгоритм классификации a:\; X\to Y вида

a(x,w) = \mathrm{sign}\left( \sum_{j=1}^n w_j f_j(x) - w_0 \right) = \mathrm{sign}\langle x,w \rangle,

где w_j — вес j-го признака, w_0 — порог принятия решения, w=(w_0,w_1,\ldots,w_n) — вектор весов, \langle x,w \rangle — скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён «константный» нулевой признак: f_{0}(x)=-1.

Задача обучения линейного классификатора заключается в том, чтобы по выборке X^m настроить вектор весов w. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида:

(1)
Q(w) = \sum_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}.

После того, как решение w найдено, становится возможным не только вычислять классификацию a(x) = \mathrm{sign}\langle x,w \rangle для произвольного объекта x, но и оценивать апостериорные вероятности его принадлежности классам:

(2)
\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y,

где \sigma(z) = \frac1{1+e^{-z}}сигмоидная функция. Во многих приложениях апостериорные вероятности необходимы для оценивания рисков, связанных с возможными ошибками классификации.

Обоснования

С точки зрения минимизации эмпирического риска

Введём понятие отступа (margin) объекта

M(x_i) = y_i \langle x_i,w \rangle.

Отступ можно понимать как «степень погруженности» объекта в свой класс. Чем меньше значение отступа M(x_i), тем ближе объект подходит к границе классов. Отступ M(x_i) отрицателен тогда и только тогда, когда алгоритм a(x,w) допускает ошибку на объекте x_i. Число ошибок классификации можно записать через отступы:

Q_0(w) = \sum_{i=1}^m \bigl[ M(x_i) < 0 \bigr].

Под знаком суммы стоит пороговая функция потерь, поэтому данный функционал не является ни выпуклым, ни даже непрерывным, и минимизировать его неудобно. Идея заключается в том, чтобы заменить пороговую функцию потерь непрерывной оценкой сверху:

[M<0] \leq \log_2 \left( 1 + e^{-M} \right).

В результате такой замены и получается функционал (1).

С точки зрения байесовской классификации

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему.

Теорема. Пусть:

  • функции правдоподобия (плотности распределения) классов p_y(x) принадлежат экспонентному семейству плотностей p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right), где a,\, b\, d — произвольные функции;
  • функции правдоподобия имеют равные знаения параметра разброса \delta и отличаются только значениями параметра сдвига \theta_y;
  • среди признаков есть константа, скажем, f_0(x) = -1.

Тогда

Таким образом, оценки апостериорных вероятностей (2) являются точными только при довольно сильных теоретико-вероятностных предположениях. На практике гарантировать выполнение этих условий вряд ли возможно. Поэтому трактовать выходы сигмоидных функций как вероятности следует с большой осторожностью. На самом деле они дают лишь оценку удалённости объекта от границы классов, нормированную так, чтобы она принимала значения из отрезка [0,1].

Методы настройки весов

Градиентный метод первого порядка

Метод второго порядка IRLS

Метод Ньютона-Раффсона является градиентным методом оптимизации второго порядка. Его применение для минимизации (1) приводит к методу наименьших квадратов с итеративным пересчетом весов IRLS.

Связь с другими методами обучения

  • Логистическая регрессия является частным случаем обобщённой линейной модели регрессии.
  • На каждом шаге метода IRLS решается стандартная задача наименьших квадратов для многомерной линейной регрессии.
  • Градиентный метод минимизации первого порядка является сглаженным вариантом правила Хэбба, предназначенного для обучения однослойного персептрона.
  • Линейный дискриминант Фишера (ЛДФ) и логистическая регрессия исходят из байесовского решающего правила и принципа максимума правдоподобия, однако результат получается разный. В ЛДФ приходится оценивать n(n+1)/2 параметров, в логистической регрессии — только n. ЛДФ решает вспомогательную задачу восстановления плотностей распределения классов, предполагая к тому же, что плотности нормальны. Логистическая регрессия не пытается восстанавливать плотности классов и опирается на более слабые предположения о виде плотностей. С точки зрения принципа Оккама «не размножать сущности без необходимости» логистическая регрессия явно предпочтительнее, поскольку ЛДФ вводит избыточную сущность — плотности распределения классов, и сводит задачу классификации к более сложной задаче восстановления плотностей.

Литература

  1. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
  2. Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p.  (подробнее)
  3. David W. Hosmer, Stanley Lemeshow. Applied Logistic Regression, 2nd ed. New York, Chichester, Wiley. 2002. 392 P. ISBN 0-471-35632-8.

Ссылки

  1. Машинное обучение (курс лекций, К.В.Воронцов)
  2. Логистическая регрессия (пример)
Личные инструменты