Группировка категорий и сегментация признаков в логистической регрессии (пример)
Материал из MachineLearning.
(Новая: Дана задача кредитного скоринга. Регрессионная модель - [[Логистическая регрессия (пример) |логистиче...) |
|||
Строка 1: | Строка 1: | ||
+ | '''Группировка категорий и сегментация признаков''' — методы, позволяющие упростить и одновременно улучшить регрессионную модель. В частности, группировка категорий позволяет понять взаимосвязь значений признаков и использовать линейные модели для нелинейных зависимостей. | ||
+ | == Постановка задачи == | ||
Дана задача кредитного скоринга. Регрессионная модель - [[Логистическая регрессия (пример) |логистическая регрессия]].Требуется найти множество активных признаков. Затем сегментировать линейные признаки, сгруппировать номинальные и ординарные. При этом надо применить как новые алгоритмы, так и классические. Сравнить оба подхода, вычислить статистическую значимость производных признаков. | Дана задача кредитного скоринга. Регрессионная модель - [[Логистическая регрессия (пример) |логистическая регрессия]].Требуется найти множество активных признаков. Затем сегментировать линейные признаки, сгруппировать номинальные и ординарные. При этом надо применить как новые алгоритмы, так и классические. Сравнить оба подхода, вычислить статистическую значимость производных признаков. | ||
== Описание данных == | == Описание данных == | ||
Строка 18: | Строка 20: | ||
<tex>\{1,\ldots,n\} = \mathbf{F}</tex> - индексы признаков. | <tex>\{1,\ldots,n\} = \mathbf{F}</tex> - индексы признаков. | ||
== Описание алгоритмов == | == Описание алгоритмов == | ||
- | Сначала находится множество активных признаков. Для этого решается задача максимизации правдоподобия, или эквивалентно - минимзация | + | Сначала находится множество активных признаков. Для этого решается задача максимизации правдоподобия, или эквивалентно - минимзация его логарифма, взятого с противополжным знаком |
<tex>-\ln(\mathbf{y}|\mathbf{w}) = - \sum_{i\subseteq\mathbf{L}}(y^{i}\ln(\sigma(\mathbf{w}^{T}x_{i})) + (1 - y^{i})\ln(1 - \sigma(\mathbf{w}^{T}x_{i}))) = S(\mathbf{w})</tex> | <tex>-\ln(\mathbf{y}|\mathbf{w}) = - \sum_{i\subseteq\mathbf{L}}(y^{i}\ln(\sigma(\mathbf{w}^{T}x_{i})) + (1 - y^{i})\ln(1 - \sigma(\mathbf{w}^{T}x_{i}))) = S(\mathbf{w})</tex> |
Версия 22:02, 24 октября 2010
Группировка категорий и сегментация признаков — методы, позволяющие упростить и одновременно улучшить регрессионную модель. В частности, группировка категорий позволяет понять взаимосвязь значений признаков и использовать линейные модели для нелинейных зависимостей.
Содержание |
Постановка задачи
Дана задача кредитного скоринга. Регрессионная модель - логистическая регрессия.Требуется найти множество активных признаков. Затем сегментировать линейные признаки, сгруппировать номинальные и ординарные. При этом надо применить как новые алгоритмы, так и классические. Сравнить оба подхода, вычислить статистическую значимость производных признаков.
Описание данных
Есть набор данных:
Матрица плана:
Целевая переменная:
Модель:
где
Индексы:
- разбиение на обучающую и контрольную выборки.
- индексы признаков.
Описание алгоритмов
Сначала находится множество активных признаков. Для этого решается задача максимизации правдоподобия, или эквивалентно - минимзация его логарифма, взятого с противополжным знаком
Множество активных признаков - . Тогда
Вычислительный эксперимент
Выполнение алгоритма
Визуализация результатов
Исследование свойств алгоритма
Исходный код
Смотри также
- Машинное обучение (курс лекций, К.В.Воронцов)
- Логистическая регрессия (пример)
- Метод касательных (Ньютона-Рафсона)
Литература
- Siddiqi N. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring. John Wiley & Sons, Inc. 2006
- Bishop C. Pattern Recognition And Machine Learning. Springer. 2006.
![]() | Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |