Логистическая регрессия

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Статья написана с использованием LLM GPT-5.3-mini и проверена участником ~~Dovlat Demin~~

не закончена еще

Содержание

1 Логистическая регрессия

Логистическая регрессия

Логистическая регрессия (logistic regression, logit model) — линейный классификатор, предназначенный для решения задач бинарной классификации. В отличие от большинства линейных классификаторов, логистическая регрессия не только относит объект к одному из классов, но и оценивает условную вероятность принадлежности объекта каждому классу.

Метод относится к классу обобщённых линейных моделей и является одним из наиболее распространённых алгоритмов машинного обучения благодаря простоте, интерпретируемости и высокой эффективности на широком круге задач.

Типичные области применения:

фильтрация спама;
кредитный скоринг;
медицинская диагностика;
прогнозирование оттока клиентов;
анализ кликов в рекомендательных системах;
обнаружение мошеннических операций.

Постановка задачи

Пусть задана обучающая выборка

$X^\ell=\{(x_i,y_i)\}_{i=1}^{\ell},$

где

$x_i\in\mathbb{R}^d$

— вектор признаков объекта,

$y_i\in\{0,1\}$

— метка класса.

Требуется построить алгоритм, который по признаковому описанию нового объекта оценивает вероятность его принадлежности положительному классу

$P(y=1\mid x),$

после чего принимает решение о классификации.

Наиболее часто используется правило

$a(x)= \begin{cases} 1,&P(y=1\mid x)\ge0.5,\\ 0,&\text{иначе}. \end{cases}$

Однако на практике порог может изменяться в зависимости от стоимости ошибок первого и второго рода.

Почему линейная регрессия не подходит для классификации

На первый взгляд задачу можно попытаться решить при помощи линейной регрессии, рассматривая метки классов как числа 0 и 1. Тогда модель имеет вид

$f(x)=w^\top x+b.$

Однако такой подход обладает несколькими принципиальными недостатками.

Во-первых, значения линейной функции не ограничены и могут принимать любые значения на всей числовой оси, тогда как вероятность должна принадлежать интервалу

$[0,1].$

Во-вторых, линейная регрессия минимизирует среднеквадратичную ошибку, предполагая нормальное распределение ошибок наблюдений. Для бинарной зависимой переменной такое предположение не выполняется.

Наконец, при использовании линейной регрессии одинаковое изменение выхода модели имеет различный смысл в разных областях. Например, изменение прогноза с 0.50 до 0.60 существенно влияет на принимаемое решение, тогда как изменение с 2.0 до 2.1 вообще не имеет вероятностной интерпретации.

Поэтому для задач классификации требуется модель, которая:

возвращает значения только из интервала $[0,1]$ ;
допускает вероятностную интерпретацию;
позволяет обучать параметры методом максимального правдоподобия.

Этим требованиям удовлетворяет логистическая регрессия.

Вероятностная модель

Основная идея логистической регрессии состоит в том, что линейная комбинация признаков моделирует не саму вероятность, а логарифм отношения шансов (log-odds):

$\log\frac{P(y=1\mid x)}{P(y=0\mid x)} = w^\top x+b.$

Поскольку

$P(y=0\mid x)=1-P(y=1\mid x),$

из предыдущего равенства получается выражение для вероятности положительного класса

$P(y=1\mid x)= \sigma(w^\top x+b),$

где

$\sigma(z)=\frac{1}{1+e^{-z}}$

— логистическая функция (сигмоида).

Соответственно,

$P(y=0\mid x)=1-\sigma(w^\top x+b).$

Таким образом, логистическая регрессия является линейной моделью в пространстве признаков, но нелинейной по отношению к вероятности.

Свойства сигмоидной функции

Сигмоидная функция обладает рядом свойств, делающих её естественным выбором для моделирования вероятностей.

принимает значения только в интервале $(0,1)$ ;
монотонно возрастает;
непрерывна и дифференцируема;
симметрична относительно точки

$(0,\frac12);$

при больших положительных значениях аргумента вероятность стремится к единице, а при больших отрицательных — к нулю.

Производная сигмоиды имеет простой вид

$\sigma'(z)= \sigma(z)\left(1-\sigma(z)\right),$

что существенно упрощает вычисление градиента при обучении модели.

Величина

$w^\top x+b$

называется логитом (logit), поскольку представляет собой логарифм отношения шансов. Именно логит моделируется линейной функцией, а сама вероятность получается после применения сигмоиды.

Интерпретация коэффициентов

Каждый коэффициент модели характеризует влияние соответствующего признака на логарифм отношения шансов.

Если признак увеличивается на единицу, а остальные признаки остаются фиксированными, то логарифм отношения шансов изменяется на величину

$w_j.$

После экспоненцирования коэффициент

$e^{w_j}$

показывает, во сколько раз изменяются шансы наступления события при увеличении данного признака на единицу.

Такая интерпретация широко используется в прикладной статистике, эконометрике, медицине и биостатистике, где важна не только точность прогноза, но и количественная оценка влияния факторов.

Обучение логистической регрессии

Параметры логистической регрессии выбираются таким образом, чтобы модель максимально точно описывала наблюдаемые данные. В отличие от линейной регрессии, где обычно минимизируется сумма квадратов ошибок, здесь естественным критерием является метод максимального правдоподобия. Такой подход непосредственно следует из вероятностной интерпретации модели и является стандартным для обобщённых линейных моделей. :contentReference[oaicite:0]{index=0}

Метод максимального правдоподобия

Пусть

$p_i=P(y_i=1\mid x_i)=\sigma(w^\top x_i+b).$

Тогда вероятность наблюдать правильную метку объекта равна

$P(y_i\mid x_i)= p_i^{y_i}(1-p_i)^{1-y_i}.$

Предполагая независимость объектов обучающей выборки, получаем функцию правдоподобия

$L(w,b)= \prod_{i=1}^{\ell} p_i^{y_i}(1-p_i)^{1-y_i}.$

Максимизация произведения неудобна вычислительно, поэтому переходят к логарифму правдоподобия

$\ell(w,b)= \sum_{i=1}^{\ell} \left( y_i\log p_i+ (1-y_i)\log(1-p_i) \right).$

Поскольку логарифм является монотонной функцией, максимум логарифма достигается при тех же значениях параметров, что и максимум исходного правдоподобия.

Логистическая функция потерь

В задачах оптимизации обычно минимизируют отрицательное логарифмическое правдоподобие

$Q(w,b)= -\ell(w,b),$

которое имеет вид

$Q(w,b)= -\sum_{i=1}^{\ell} \left( y_i\log p_i+ (1-y_i)\log(1-p_i) \right).$

Этот функционал известен как логистическая функция потерь, логарифмическая потеря (log-loss) или бинарная кросс-энтропия (binary cross-entropy). Она обладает рядом важных свойств:

штрафует уверенные ошибочные прогнозы значительно сильнее, чем неуверенные;
является выпуклой по параметрам модели;
непосредственно соответствует принципу максимального правдоподобия.

Если модель предсказывает вероятность, близкую к единице для истинного класса, вклад соответствующего объекта в функцию потерь оказывается малым. Напротив, уверенный неправильный прогноз приводит к очень большому значению ошибки.

Градиент функции потерь

Благодаря простой производной сигмоиды

$\sigma'(z)= \sigma(z)(1-\sigma(z))$

градиент функции потерь также имеет простой аналитический вид.

Для весового вектора

$w$

получается

$\nabla_w Q= \sum_{i=1}^{\ell} (p_i-y_i)x_i,$

а для свободного коэффициента

$\frac{\partial Q}{\partial b}= \sum_{i=1}^{\ell} (p_i-y_i).$

Заметим, что выражение

$p_i-y_i$

представляет собой разность между предсказанной вероятностью и истинной меткой объекта. Именно поэтому вычисление градиента логистической регрессии существенно проще, чем может показаться из определения функции правдоподобия.

Методы оптимизации

В отличие от линейной регрессии, аналитическое решение задачи оптимизации отсутствует. Причина заключается в нелинейности сигмоидной функции.

Поэтому параметры модели находятся численными методами. Наиболее распространены:

градиентный спуск;
стохастический и мини-пакетный градиентный спуск;
метод Ньютона;
алгоритм IRLS (Iteratively Reweighted Least Squares);
квазиньютоновские методы BFGS и L-BFGS.

Поскольку функция потерь выпукла, любая локальная точка минимума одновременно является глобальной. Это существенно упрощает обучение по сравнению со многими современными нелинейными моделями, например нейронными сетями. :contentReference[oaicite:1]{index=1}

Регуляризация

При большом числе признаков модель может переобучаться. Для уменьшения сложности модели в функцию потерь добавляют штраф за большие значения коэффициентов.

Наиболее распространена $L_2$ -регуляризация:

$Q_{\lambda}(w)= Q(w)+ \frac{\lambda}{2}\|w\|_2^2,$

где

$\lambda\ge0$

— коэффициент регуляризации.

Такой штраф уменьшает величину коэффициентов, делает решение более устойчивым и снижает дисперсию модели.

Другой популярный вариант — $L_1$ -регуляризация

$Q_{\lambda}(w)= Q(w)+ \lambda\|w\|_1,$

которая способствует появлению разреженных решений, зануляя часть коэффициентов. Благодаря этому логистическая регрессия одновременно выполняет классификацию и отбор наиболее информативных признаков.

Геометрическая интерпретация

Как и любой линейный классификатор, логистическая регрессия строит в пространстве признаков разделяющую гиперплоскость

$w^\top x+b=0.$

Все объекты, лежащие по одну сторону гиперплоскости, относятся к одному классу, по другую — к другому.

В отличие от метода опорных векторов, логистическая регрессия не максимизирует ширину разделяющей полосы. Вместо этого она подбирает параметры таким образом, чтобы максимизировать вероятность наблюдаемых данных.

Удалённость точки от разделяющей гиперплоскости определяется значением

$w^\top x+b.$

После применения сигмоиды это расстояние преобразуется в вероятность принадлежности положительному классу.

Следовательно, логистическая регрессия является одновременно линейным классификатором и вероятностной моделью: геометрическое положение объекта относительно разделяющей гиперплоскости определяет степень уверенности классификации.