Логит-анализ

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 28: Строка 28:
:<tex>x_2=</tex> пол, может принимать значения 0 (муж.) или 1 (жен.)
:<tex>x_2=</tex> пол, может принимать значения 0 (муж.) или 1 (жен.)
:<tex>x_3=</tex> уровень холестерина в моль/л, уменьшенный на 5,0
:<tex>x_3=</tex> уровень холестерина в моль/л, уменьшенный на 5,0
 +
 +
Согласно этой модели, вероятность смерти в результате болезни сердца определяется формулой:
 +
 +
<tex>\text{risk of death} = \frac{1}{1+e^{-z}} \text{, where } z=-5.0 +2.0x_1 -1.0x_2 + 1.2x_3.</tex>
 +
 +
зависящей от возраста, пола и уровня холестерина.
 +
 +
В этой модели, увеличение возраста приводит к увеличению риска смерти от болезни сердца (z повышается на 2.0 в течение каждых 10 лет в возрасте старше 50), женщины менее подвержены сердечным заболеваниям, чем мужчины (z понижается 1.0, если пациентка - женщина), и превышение содержания холестерина над пороговым уровнем приводит к увеличению риска смерти (z повышается на 1.2 для каждого 1 ммоль/л холестерина свыше 5ммоль/л).
 +
 +
Применим эту модель для оценки риск смерти некоего Петренко Ивана Карловича: ему 50 лет, и его уровень холестерина - 7.0 mmol/L.
 +
 +
 +
: <tex> \frac{1}{1+e^{-z}} \text{, where } z=-5.0 + (+2.0)(5.0-5.0) + (-1.0)0 + (+1.2)(7.0-5.0).</tex>
 +
 +
Согласно модели, риск смерти господина Петренко от болезни сердца за следующие 10 лет составляет 0.07 (или 7 %).
 +
 +
==Формальное математическое описание==
 +
 +
Логистическая регрессия анализирует биномиально распределенные данные вида

Версия 04:36, 10 января 2009

В статистике логистическая регрессия - модель, используемая для предсказания вероятности возникновения события «подгоном» данных к логистической кривой. При этом используют несколько предсказывающих переменных, которые могут быть или числовыми или категориальными. Например, вероятность, того, что у человека случится сердечный приступ в определенный период времени, может быть предсказана в зависимости от возраста человека, пола и индекса массы тела. Логистическая регрессия широко используется в медицинских и общественных науках, так же в маркетинговых исследованиях, таких как предсказание склонности клиента купить определенный продукт или прекратить подписку.

Другие названия для логистической регрессии, используемые в различных прикладных областях, включают логистическую модель, Логит-модель, и классификатор максимальной энтропии.

Логистическая регрессия относится к классу моделей, известных как обобщенные линейные модели.


Простое объяснение

Figure 1. Логистическая функция, с z на горизонтальной оси и f (z) на вертикальной оси.
Figure 1. Логистическая функция, с z на горизонтальной оси и f (z) на вертикальной оси.

Объяснение логистической регрессии начинается с объяснения логистической функции:

f(z)=\frac{1}{1+e^{-z}}


Типичный график логистической функции показан на рис. 1. По оси абсцисс – управляющий параметр z ("Вход"), по оси ординат f(z) - "отклик". Логистическая функция полезна, потому что она может принимать любые входные значения от минус бесконечности до плюс бесконечности, тогда как отклик (функция) ограничена диапазоном [0; 1]. Переменная z отражает подверженность некоторому набору факторов риска, в то время как f (z) представляет вероятность конкретного исхода, при заданном наборе рисков. Переменная z является мерой полного вклада всех факторов риска, используемых в модели, и известна как logit.

z=\beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3 + \cdots + \beta_kx_k,

где β0 называют "точкой пересечения", а \beta_1, \beta_2, \beta_3, и т. д. называют "коэффициентами регрессии" для управляющих параметров (факторов риска) x_1, x_2, x_3 соответственно. Точка пересечения – фоновая величина риска, т.е. величина z, при нулевых значениях всех специфических факторов риска. Каждый из коэффициентов регрессии описывает размер вклада соответствующего фактора риска. Положительный коэффициент регрессии означает, что данный фактор увеличивает общий риск (т.е. повышает вероятность анализируемого исхода), в то время как отрицательный коэффициент означает, что этот фактор уменьшает риск; большой коэффициент регрессии означает, что данный фактор существенно влияет на совокупный риск, в то время как почти нулевой коэффициент регрессии означает, что этот фактор имеет небольшое влияние на вероятность результата. Логистическая регрессия - полезный способ описать влияние одного или нескольких факторов риска (например, возраст, пол, и т.д.) на результат, такой как смерть (логистическая функция может принимать только два возможных значения: мертвый или не мертвый). Применимость логистической регрессии может быть продемонстрирована на фиктивном примере смертности от болезней сердца. Эта упрощенная модель использует только три фактора риска (возраст, пол, и уровень холестерина в крови), чтобы предсказать риск смерти от заболеваний сердца на десятилетний период. Вот пример подгоночной модели:

\beta_0=-5.0 пересечение
\beta_1=+2.0
\beta_2=-1.0
\beta_3=+1.2
x_1= возраст, превышение пятидесятилетия в десятках лет;
x_2= пол, может принимать значения 0 (муж.) или 1 (жен.)
x_3= уровень холестерина в моль/л, уменьшенный на 5,0

Согласно этой модели, вероятность смерти в результате болезни сердца определяется формулой:

\text{risk of death} = \frac{1}{1+e^{-z}} \text{, where } z=-5.0 +2.0x_1 -1.0x_2 + 1.2x_3.

зависящей от возраста, пола и уровня холестерина.

В этой модели, увеличение возраста приводит к увеличению риска смерти от болезни сердца (z повышается на 2.0 в течение каждых 10 лет в возрасте старше 50), женщины менее подвержены сердечным заболеваниям, чем мужчины (z понижается 1.0, если пациентка - женщина), и превышение содержания холестерина над пороговым уровнем приводит к увеличению риска смерти (z повышается на 1.2 для каждого 1 ммоль/л холестерина свыше 5ммоль/л).

Применим эту модель для оценки риск смерти некоего Петренко Ивана Карловича: ему 50 лет, и его уровень холестерина - 7.0 mmol/L.


 \frac{1}{1+e^{-z}} \text{, where } z=-5.0 + (+2.0)(5.0-5.0) + (-1.0)0 + (+1.2)(7.0-5.0).

Согласно модели, риск смерти господина Петренко от болезни сердца за следующие 10 лет составляет 0.07 (или 7 %).

Формальное математическое описание

Логистическая регрессия анализирует биномиально распределенные данные вида

Личные инструменты