Логистическая регрессия
Материал из MachineLearning.
м (убрал опечатку (знак -) в формуле апостериорной вероятности) |
(→Ссылки) |
||
Строка 106: | Строка 106: | ||
[[Категория:Машинное обучение]] | [[Категория:Машинное обучение]] | ||
[[Категория:Классификация]] | [[Категория:Классификация]] | ||
+ | [[Категория:Бинарные классификаторы]] |
Версия 14:02, 13 марта 2013
|
Логистическая регрессия (Logistic regression) — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
Определения
Пусть объекты описываются n числовыми признаками . Тогда пространство признаковых описаний объектов есть . Пусть — конечное множество номеров (имён, меток) классов.
Пусть задана обучающая выборка пар «объект, ответ» .
Случай двух классов
Положим . В логистической регрессии строится линейный алгоритм классификации вида
где — вес -го признака, — порог принятия решения, — вектор весов, — скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён «константный» нулевой признак: .
Задача обучения линейного классификатора заключается в том, чтобы по выборке настроить вектор весов . В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида:
После того, как решение найдено, становится возможным не только вычислять классификацию для проивольного объекта , но и оценивать апостериорные вероятности его принадлежности классам:
где — сигмоидная функция. Во многих приложениях апостериорные вероятности необходимы для оценивания рисков, связанных с возможными ошибками классификации.
Обоснования
С точки зрения минимизации эмпирического риска
Введём понятие отступа (margin) объекта
Отступ можно понимать как «степень погруженности» объекта в свой класс. Чем меньше значение отступа , тем ближе объект подходит к границе классов. Отступ отрицателен тогда и только тогда, когда алгоритм допускает ошибку на объекте . Число ошибок классификации можно записать через отступы:
Под знаком суммы стоит пороговая функция потерь, поэтому данный функционал не является ни выпуклым, ни даже непрерывным, и минимизировать его неудобно. Идея заключается в том, чтобы заменить пороговую функцию потерь непрерывной оценкой сверху:
В результате такой замены и получается функционал (1).
С точки зрения байесовской классификации
Наиболее строгое обоснование логистической регрессии опирается на следующую теорему.
Теорема. Пусть:
- функции правдоподобия (плотности распределения) классов принадлежат экспонентному семейству плотностей где — произвольные функции;
- функции правдоподобия имеют равные знаения параметра разброса и отличаются только значениями параметра сдвига ;
- среди признаков есть константа, скажем, .
Тогда
- линейный классификатор является оптимальным байесовским классификатором;
- апостериорные вероятности классов оценивается по формуле (2);
- минимизация функционала (1) эквивалентна максимизации правдоподобия выборки.
Таким образом, оценки апостериорных вероятностей (2) являются точными только при довольно сильных теоретико-вероятностных предположениях. На практике гарантировать выполнение этих условий вряд ли возможно. Поэтому трактовать выходы сигмоидных функций как вероятности следует с большой осторожностью. На самом деле они дают лишь оценку удалённости объекта от границы классов, нормированную так, чтобы она принимала значения из отрезка .
Методы настройки весов
Градиентный метод первого порядка
Метод второго порядка IRLS
Метод Ньютона-Раффсона является градиентным методом оптимизации второго порядка. Его применение для минимизации (1) приводит к методу наименьших квадратов с итеративным пересчетом весов IRLS.
Связь с другими методами обучения
- Логистическая регрессия является частным случаем обобщённой линейной модели регрессии.
- На каждом шаге метода IRLS решается стандартная задача наименьших квадратов для многомерной линейной регрессии.
- Градиентный метод минимизации первого порядка является сглаженным вариантом правила Хэбба, предназначенного для обучения однослойного персептрона.
- Линейный дискриминант Фишера (ЛДФ) и логистическая регрессия исходят из байесовского решающего правила и принципа максимума правдоподобия, однако результат получается разный. В ЛДФ приходится оценивать параметров, в логистической регрессии — только . ЛДФ решает вспомогательную задачу восстановления плотностей распределения классов, предполагая к тому же, что плотности нормальны. Логистическая регрессия не пытается восстанавливать плотности классов и опирается на более слабые предположения о виде плотностей. С точки зрения принципа Оккама «не размножать сущности без необходимости» логистическая регрессия явно предпочтительнее, поскольку ЛДФ вводит избыточную сущность — плотности распределения классов, и сводит задачу классификации к более сложной задаче восстановления плотностей.
Литература
- Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
- Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p. (подробнее)
- David W. Hosmer, Stanley Lemeshow. Applied Logistic Regression, 2nd ed. New York, Chichester, Wiley. 2002. 392 P. ISBN 0-471-35632-8.