Группировка категорий и сегментация признаков в логистической регрессии (пример)
Материал из MachineLearning.
Группировка категорий и сегментация признаков — методы, позволяющие упростить и одновременно улучшить регрессионную модель. В частности, группировка категорий позволяет понять взаимосвязь значений признаков и использовать линейные модели для нелинейных зависимостей.
Содержание |
Постановка задачи
Дана задача кредитного скоринга. Регрессионная модель - логистическая регрессия.Требуется найти множество активных признаков. Затем сегментировать линейные признаки, сгруппировать номинальные и ординарные. При этом надо применить как новые алгоритмы, так и классические. Сравнить оба подхода, вычислить статистическую значимость производных признаков.
Описание данных
Есть набор данных:
Матрица плана:
Целевая переменная:
Модель: где
Индексы: - разбиение на обучающую и контрольную выборки. - индексы признаков.
Описание алгоритмов
Сначала находится множество активных признаков. Для этого решается задача максимизации правдоподобия, или эквивалентно - минимзация его логарифма, взятого с противополжным знаком
Множество активных признаков - . Тогда
Вычислительный эксперимент
Выполнение алгоритма
Визуализация результатов
Исследование свойств алгоритма
Исходный код
Смотри также
- Машинное обучение (курс лекций, К.В.Воронцов)
- Логистическая регрессия (пример)
- Метод касательных (Ньютона-Рафсона)
Литература
- Siddiqi N. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring. John Wiley & Sons, Inc. 2006
- Bishop C. Pattern Recognition And Machine Learning. Springer. 2006.
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |