Логит-анализ
Материал из MachineLearning.
В статистике логистическая регрессия - модель, используемая для предсказания вероятности возникновения события «подгоном» данных к логистической кривой. При этом используют несколько предсказывающих переменных, которые могут быть или числовыми или категориальными. Например, вероятность, того, что у человека случится сердечный приступ в определенный период времени, может быть предсказана в зависимости от возраста человека, пола и индекса массы тела. Логистическая регрессия широко используется в медицинских и общественных науках, так же в маркетинговых исследованиях, таких как предсказание склонности клиента купить определенный продукт или прекратить подписку.
Другие названия для логистической регрессии, используемые в различных прикладных областях, включают логистическую модель, Логит-модель, и классификатор максимальной энтропии.
Логистическая регрессия относится к классу моделей, известных как обобщенные линейные модели.
Простое объяснение
Объяснение логистической регрессии начинается с объяснения логистической функции:
Типичный график логистической функции показан на рис. 1. По оси абсцисс – управляющий параметр z ("Вход"), по оси ординат f(z) - "отклик". Логистическая функция полезна, потому что она может принимать любые входные значения от минус бесконечности до плюс бесконечности, тогда как отклик (функция) ограничена диапазоном [0; 1]. Переменная z отражает подверженность некоторому набору факторов риска, в то время как f (z) представляет вероятность конкретного исхода, при заданном наборе рисков. Переменная z является мерой полного вклада всех факторов риска, используемых в модели, и известна как logit.
где β0 называют "точкой пересечения", а и т. д. называют "коэффициентами регрессии" для управляющих параметров (факторов риска) соответственно. Точка пересечения – фоновая величина риска, т.е. величина z, при нулевых значениях всех специфических факторов риска. Каждый из коэффициентов регрессии описывает размер вклада соответствующего фактора риска. Положительный коэффициент регрессии означает, что данный фактор увеличивает общий риск (т.е. повышает вероятность анализируемого исхода), в то время как отрицательный коэффициент означает, что этот фактор уменьшает риск; большой коэффициент регрессии означает, что данный фактор существенно влияет на совокупный риск, в то время как почти нулевой коэффициент регрессии означает, что этот фактор имеет небольшое влияние на вероятность результата. Логистическая регрессия - полезный способ описать влияние одного или нескольких факторов риска (например, возраст, пол, и т.д.) на результат, такой как смерть (логистическая функция может принимать только два возможных значения: мертвый или не мертвый). Применимость логистической регрессии может быть продемонстрирована на фиктивном примере смертности от болезней сердца. Эта упрощенная модель использует только три фактора риска (возраст, пол, и уровень холестерина в крови), чтобы предсказать риск смерти от заболеваний сердца на десятилетний период. Вот пример подгоночной модели:
- пересечение
- возраст, превышение пятидесятилетия в десятках лет;
- пол, может принимать значения 0 (муж.) или 1 (жен.)
- уровень холестерина в моль/л, уменьшенный на 5,0