Логистическая регрессия

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Обучение логистической регрессии

Параметры логистической регрессии выбираются таким образом, чтобы модель максимально точно описывала наблюдаемые данные. В отличие от линейной регрессии, где обычно минимизируется сумма квадратов ошибок, здесь естественным критерием является метод максимального правдоподобия. Такой подход непосредственно следует из вероятностной интерпретации модели и является стандартным для обобщённых линейных моделей. :contentReference[oaicite:0]{index=0}

Метод максимального правдоподобия

Пусть


p_i=P(y_i=1\mid x_i)=\sigma(w^\top x_i+b).

Тогда вероятность наблюдать правильную метку объекта равна


P(y_i\mid x_i)=
p_i^{y_i}(1-p_i)^{1-y_i}.

Предполагая независимость объектов обучающей выборки, получаем функцию правдоподобия


L(w,b)=
\prod_{i=1}^{\ell}
p_i^{y_i}(1-p_i)^{1-y_i}.

Максимизация произведения неудобна вычислительно, поэтому переходят к логарифму правдоподобия


\ell(w,b)=
\sum_{i=1}^{\ell}
\left(
y_i\log p_i+
(1-y_i)\log(1-p_i)
\right).

Поскольку логарифм является монотонной функцией, максимум логарифма достигается при тех же значениях параметров, что и максимум исходного правдоподобия.

Логистическая функция потерь

В задачах оптимизации обычно минимизируют отрицательное логарифмическое правдоподобие


Q(w,b)=
-\ell(w,b),

которое имеет вид


Q(w,b)=
-\sum_{i=1}^{\ell}
\left(
y_i\log p_i+
(1-y_i)\log(1-p_i)
\right).

Этот функционал известен как логистическая функция потерь, логарифмическая потеря (log-loss) или бинарная кросс-энтропия (binary cross-entropy). Она обладает рядом важных свойств:

  • штрафует уверенные ошибочные прогнозы значительно сильнее, чем неуверенные;
  • является выпуклой по параметрам модели;
  • непосредственно соответствует принципу максимального правдоподобия.

Если модель предсказывает вероятность, близкую к единице для истинного класса, вклад соответствующего объекта в функцию потерь оказывается малым. Напротив, уверенный неправильный прогноз приводит к очень большому значению ошибки.

Градиент функции потерь

Благодаря простой производной сигмоиды


\sigma'(z)=
\sigma(z)(1-\sigma(z))

градиент функции потерь также имеет простой аналитический вид.

Для весового вектора


w

получается


\nabla_w Q=
\sum_{i=1}^{\ell}
(p_i-y_i)x_i,

а для свободного коэффициента


\frac{\partial Q}{\partial b}=
\sum_{i=1}^{\ell}
(p_i-y_i).

Заметим, что выражение


p_i-y_i

представляет собой разность между предсказанной вероятностью и истинной меткой объекта. Именно поэтому вычисление градиента логистической регрессии существенно проще, чем может показаться из определения функции правдоподобия.

Методы оптимизации

В отличие от линейной регрессии, аналитическое решение задачи оптимизации отсутствует. Причина заключается в нелинейности сигмоидной функции.

Поэтому параметры модели находятся численными методами. Наиболее распространены:

  • градиентный спуск;
  • стохастический и мини-пакетный градиентный спуск;
  • метод Ньютона;
  • алгоритм IRLS (Iteratively Reweighted Least Squares);
  • квазиньютоновские методы BFGS и L-BFGS.

Поскольку функция потерь выпукла, любая локальная точка минимума одновременно является глобальной. Это существенно упрощает обучение по сравнению со многими современными нелинейными моделями, например нейронными сетями. :contentReference[oaicite:1]{index=1}

Регуляризация

При большом числе признаков модель может переобучаться. Для уменьшения сложности модели в функцию потерь добавляют штраф за большие значения коэффициентов.

Наиболее распространена L_2-регуляризация:


Q_{\lambda}(w)=
Q(w)+
\frac{\lambda}{2}\|w\|_2^2,

где


\lambda\ge0

— коэффициент регуляризации.

Такой штраф уменьшает величину коэффициентов, делает решение более устойчивым и снижает дисперсию модели.

Другой популярный вариант — L_1-регуляризация


Q_{\lambda}(w)=
Q(w)+
\lambda\|w\|_1,

которая способствует появлению разреженных решений, зануляя часть коэффициентов. Благодаря этому логистическая регрессия одновременно выполняет классификацию и отбор наиболее информативных признаков.

Геометрическая интерпретация

Как и любой линейный классификатор, логистическая регрессия строит в пространстве признаков разделяющую гиперплоскость


w^\top x+b=0.

Все объекты, лежащие по одну сторону гиперплоскости, относятся к одному классу, по другую — к другому.

В отличие от метода опорных векторов, логистическая регрессия не максимизирует ширину разделяющей полосы. Вместо этого она подбирает параметры таким образом, чтобы максимизировать вероятность наблюдаемых данных.

Удалённость точки от разделяющей гиперплоскости определяется значением


w^\top x+b.

После применения сигмоиды это расстояние преобразуется в вероятность принадлежности положительному классу.

Следовательно, логистическая регрессия является одновременно линейным классификатором и вероятностной моделью: геометрическое положение объекта относительно разделяющей гиперплоскости определяет степень уверенности классификации.

Обучение логистической регрессии

Параметры логистической регрессии выбираются таким образом, чтобы модель максимально точно описывала наблюдаемые данные. В отличие от линейной регрессии, где обычно минимизируется сумма квадратов ошибок, здесь естественным критерием является метод максимального правдоподобия. Такой подход непосредственно следует из вероятностной интерпретации модели и является стандартным для обобщённых линейных моделей. :contentReference[oaicite:0]{index=0}

Метод максимального правдоподобия

Пусть


p_i=P(y_i=1\mid x_i)=\sigma(w^\top x_i+b).

Тогда вероятность наблюдать правильную метку объекта равна


P(y_i\mid x_i)=
p_i^{y_i}(1-p_i)^{1-y_i}.

Предполагая независимость объектов обучающей выборки, получаем функцию правдоподобия


L(w,b)=
\prod_{i=1}^{\ell}
p_i^{y_i}(1-p_i)^{1-y_i}.

Максимизация произведения неудобна вычислительно, поэтому переходят к логарифму правдоподобия


\ell(w,b)=
\sum_{i=1}^{\ell}
\left(
y_i\log p_i+
(1-y_i)\log(1-p_i)
\right).

Поскольку логарифм является монотонной функцией, максимум логарифма достигается при тех же значениях параметров, что и максимум исходного правдоподобия.

Логистическая функция потерь

В задачах оптимизации обычно минимизируют отрицательное логарифмическое правдоподобие


Q(w,b)=
-\ell(w,b),

которое имеет вид


Q(w,b)=
-\sum_{i=1}^{\ell}
\left(
y_i\log p_i+
(1-y_i)\log(1-p_i)
\right).

Этот функционал известен как логистическая функция потерь, логарифмическая потеря (log-loss) или бинарная кросс-энтропия (binary cross-entropy). Она обладает рядом важных свойств:

  • штрафует уверенные ошибочные прогнозы значительно сильнее, чем неуверенные;
  • является выпуклой по параметрам модели;
  • непосредственно соответствует принципу максимального правдоподобия.

Если модель предсказывает вероятность, близкую к единице для истинного класса, вклад соответствующего объекта в функцию потерь оказывается малым. Напротив, уверенный неправильный прогноз приводит к очень большому значению ошибки.

Градиент функции потерь

Благодаря простой производной сигмоиды


\sigma'(z)=
\sigma(z)(1-\sigma(z))

градиент функции потерь также имеет простой аналитический вид.

Для весового вектора


w

получается


\nabla_w Q=
\sum_{i=1}^{\ell}
(p_i-y_i)x_i,

а для свободного коэффициента


\frac{\partial Q}{\partial b}=
\sum_{i=1}^{\ell}
(p_i-y_i).

Заметим, что выражение


p_i-y_i

представляет собой разность между предсказанной вероятностью и истинной меткой объекта. Именно поэтому вычисление градиента логистической регрессии существенно проще, чем может показаться из определения функции правдоподобия.

Методы оптимизации

В отличие от линейной регрессии, аналитическое решение задачи оптимизации отсутствует. Причина заключается в нелинейности сигмоидной функции.

Поэтому параметры модели находятся численными методами. Наиболее распространены:

  • градиентный спуск;
  • стохастический и мини-пакетный градиентный спуск;
  • метод Ньютона;
  • алгоритм IRLS (Iteratively Reweighted Least Squares);
  • квазиньютоновские методы BFGS и L-BFGS.

Поскольку функция потерь выпукла, любая локальная точка минимума одновременно является глобальной. Это существенно упрощает обучение по сравнению со многими современными нелинейными моделями, например нейронными сетями. :contentReference[oaicite:1]{index=1}

Регуляризация

При большом числе признаков модель может переобучаться. Для уменьшения сложности модели в функцию потерь добавляют штраф за большие значения коэффициентов.

Наиболее распространена L_2-регуляризация:


Q_{\lambda}(w)=
Q(w)+
\frac{\lambda}{2}\|w\|_2^2,

где


\lambda\ge0

— коэффициент регуляризации.

Такой штраф уменьшает величину коэффициентов, делает решение более устойчивым и снижает дисперсию модели.

Другой популярный вариант — L_1-регуляризация


Q_{\lambda}(w)=
Q(w)+
\lambda\|w\|_1,

которая способствует появлению разреженных решений, зануляя часть коэффициентов. Благодаря этому логистическая регрессия одновременно выполняет классификацию и отбор наиболее информативных признаков.

Геометрическая интерпретация

Как и любой линейный классификатор, логистическая регрессия строит в пространстве признаков разделяющую гиперплоскость


w^\top x+b=0.

Все объекты, лежащие по одну сторону гиперплоскости, относятся к одному классу, по другую — к другому.

В отличие от метода опорных векторов, логистическая регрессия не максимизирует ширину разделяющей полосы. Вместо этого она подбирает параметры таким образом, чтобы максимизировать вероятность наблюдаемых данных.

Удалённость точки от разделяющей гиперплоскости определяется значением


w^\top x+b.

После применения сигмоиды это расстояние преобразуется в вероятность принадлежности положительному классу.

Следовательно, логистическая регрессия является одновременно линейным классификатором и вероятностной моделью: геометрическое положение объекта относительно разделяющей гиперплоскости определяет степень уверенности классификации.

Многоклассовая логистическая регрессия

Логистическая регрессия в исходном виде предназначена для решения задач бинарной классификации. Для случая, когда число классов


K>2,

используются два основных подхода.

Схема «один против всех»

Наиболее простым способом является обучение


K

независимых бинарных классификаторов. Для каждого класса строится собственная модель, отличающая данный класс от всех остальных.

Для нового объекта вычисляются вероятности


P(y=k\mid x),
\quad
k=1,\ldots,K,

после чего выбирается класс с максимальной оценкой.

Достоинствами подхода являются простота реализации и возможность использовать любой алгоритм бинарной классификации. Недостаток состоит в том, что вероятности различных моделей обучаются независимо и поэтому могут быть плохо согласованы между собой.

Мультиномиальная логистическая регрессия

Более естественным обобщением является мультиномиальная логистическая регрессия (multinomial logistic regression, softmax regression), в которой вероятности всех классов моделируются одновременно. :contentReference[oaicite:0]{index=0}

Каждому классу соответствует собственный вектор параметров


w_k.

Для объекта вычисляются линейные оценки


a_k(x)=w_k^\top x+b_k,

которые преобразуются в вероятности с помощью функции softmax:


P(y=k\mid x)=
\frac{\exp(a_k(x))}
{\sum\limits_{j=1}^{K}\exp(a_j(x))}.

Полученные вероятности обладают двумя важными свойствами:

  • принадлежат интервалу [0,1];
  • их сумма равна единице.

Как и в бинарном случае, параметры модели оцениваются методом максимального правдоподобия, а функция потерь представляет собой многоклассовую кросс-энтропию. :contentReference[oaicite:1]{index=1}

Достоинства

Логистическая регрессия остаётся одним из наиболее популярных методов классификации благодаря сочетанию простоты и высокой практической эффективности.

Основные достоинства метода:

  • вероятностная интерпретация результатов;
  • выпуклая задача оптимизации с единственным глобальным минимумом;
  • высокая скорость обучения и предсказания;
  • небольшое число настраиваемых гиперпараметров;
  • интерпретируемость коэффициентов модели;
  • возможность использования регуляризации и отбора признаков;
  • хорошая работа на выборках большого объёма и высокой размерности.

По этим причинам логистическая регрессия часто используется как базовый алгоритм при сравнении методов машинного обучения и как отправная точка при решении новых прикладных задач.

Ограничения

Несмотря на широкую область применения, логистическая регрессия имеет ряд ограничений.

Прежде всего, модель предполагает линейную зависимость логарифма отношения шансов от признаков. Если истинная граница между классами существенно нелинейна, качество классификации может оказаться недостаточным.

Кроме того:

  • модель чувствительна к сильной мультиколлинеарности признаков;
  • качество зависит от выбора информативного признакового описания;
  • при наличии большого числа выбросов возможна деградация качества;
  • без построения новых признаков модель не способна описывать сложные нелинейные зависимости.

Для повышения качества нередко используют полиномиальные признаки, взаимодействия признаков или предварительные нелинейные преобразования данных.

Связь с другими методами

Логистическая регрессия занимает промежуточное положение между классическими статистическими моделями и современными алгоритмами машинного обучения.

По сравнению с линейной регрессией она использует вероятностную модель бинарной случайной величины и оптимизирует логарифмическое правдоподобие вместо среднеквадратичной ошибки.

По сравнению с методом опорных векторов логистическая регрессия непосредственно оценивает условные вероятности классов, тогда как SVM ориентирован на максимизацию разделяющего зазора и требует дополнительной калибровки для получения вероятностных оценок.

С точки зрения статистики логистическая регрессия является частным случаем обобщённых линейных моделей с биномиальным распределением отклика и логит-функцией связи.

Наконец, функция потерь логистической регрессии — кросс-энтропия — широко используется при обучении нейронных сетей. В этом смысле логистическая регрессия может рассматриваться как однослойная нейронная сеть без скрытых слоёв, использующая сигмоидную (или softmax) функцию активации на выходе.

См. также

Литература

  1. Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  2. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. 2nd ed. Springer, 2009.
  3. Murphy K. P. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  4. McCullagh P., Nelder J. A. Generalized Linear Models. 2nd ed. Chapman & Hall, 1989.
  5. Hosmer D. W., Lemeshow S., Sturdivant R. X. Applied Logistic Regression. 3rd ed. Wiley, 2013.
  6. Cox D. R. The Regression Analysis of Binary Sequences. Journal of the Royal Statistical Society, Series B, 1958.
Личные инструменты