Отбор признаков
Материал из MachineLearning.
Шаблон:Философия ИИ/Статья создана с помощью ИИ
Содержание |
Отбор признаков (Feature Selection)
Отбор признаков (англ. feature selection) — процесс выбора оптимального подмножества релевантных признаков (предикторов, переменных) для построения модели машинного обучения. Отбор признаков преследует несколько фундаментальных целей: преодоление «проклятия размерности» (curse of dimensionality), устранение мультиколлинеарности, минимизация времени обучения и радикальное повышение интерпретируемости результирующих моделей при сохранении или увеличении их обобщающей способности.
1. Математическая постановка задачи
Пусть задана обучающая выборка, представленная в виде матрицы объекты-признаки , где
— количество независимых объектов (наблюдений), а
— исходная размерность признакового пространства. Каждому объекту (строке матрицы)
поставлен в соответствие истинный ответ (целевая переменная)
. Для задач регрессии
, для задач многоклассовой классификации
.
Определим полное множество индексов исходных признаков как:
Задачей отбора признаков является нахождение оптимального подмножества индексов фиксированной или переменной мощности
(где
), которое минимизирует функционал эмпирического риска выбранного базового алгоритма обучения
на отложенной выборке:
- где
— усеченная матрица объектов размерности
, содержащая только столбцы с индексами из множества
,
— функция потерь алгоритма, а
— размер валидационной выборки.
- где
Полный перебор всех возможных комбинаций требует оценки вариантов, что представляет собой NP-трудную задачу. В силу этого на практике применяются эвристические подходы, разделяемые на три класса: фильтрация (filters), обертывание (wrappers) и встроенные методы (embedded).
2. Методы фильтрации (Filter Methods)
Методы фильтрации оценивают статистические свойства признаков изолированно от структуры и параметров финальной прогностической модели. Из-за вычислительной простоты они используются в качестве методов быстрой предварительной фильтрации (screener).
- Порог дисперсии (Variance Threshold): Устраняет константные и квазиконстантные признаки, не несущие дискриминативной информации. Признак
удаляется, если его выборочная дисперсия ниже заданного порога
:
- Линейный коэффициент корреляции Пирсона: Измеряет степень линейной связи между непрерывным признаком
и непрерывной целевой переменной
:
- Критерий Хи-квадрат (
test): Применяется для качественных (категориальных) признаков. Проверяет гипотезу о независимости признака
- где
— наблюдаемое число объектов, сочетающих
-е значение признака и
— ожидаемое число объектов при гипотезе о независимости.
- Взаимная информация (Mutual Information): Базируется на энтропии Шеннона и улавливает произвольные нелинейные зависимости. Для дискретных случайных величин формула имеет вид:
- где
— совместное распределение вероятностей, а
и
. На шаге
- Обратное последовательное исключение (Backward Stepwise Elimination): Процесс, обратный прямому отбору. Стартует с полного набора признаков
, на каждом шаге отбрасывается переменная, удаление которой наносит минимальный ущерб точности модели.
- Рекурсивное исключение признаков (Recursive Feature Elimination, RFE): Алгоритм (Guyon et al., 2002), обучающий модель на полном множестве, ранжирующий признаки по величине квадрата весовых коэффициентов линейного классификатора
(или значимости в деревьях) и последовательно отсекающий наименее важные элементы.
4. Встроенные методы (Embedded Methods)
Встроенные методы осуществляют селекцию признаков непосредственно в ходе оптимизации внутренних параметров модели (процессы обучения и отбора математически неразделимы).
- L1-регуляризация (LASSO): Метод аппроксимации разреженных решений (Tibshirani, 1996). За счет сингулярности (острых углов) ограничения L1-нормы в области нулевых значений, оптимизатор принудительно зануляет веса избыточных предикторов:
- где
.
- где
- Elastic Net Регуляризация: Комбинирует штрафы L1 и L2 (Zou, Hastie, 2005) для преодоления ограничений LASSO при работе с коррелированными группами признаков:
- Уменьшение примеси в ансамблях деревьев (Mean Decrease Impurity, MDI): Метод оценки важности признаков в алгоритме Random Forest (Breiman, 2001). Значимость признака
- где
— значение неопределенности в узле,
):
- Информационный критерий Акаике (AIC):
- где
— максимизированное значение функции правдоподобия (Likelihood function) модели.
- где
- Байесовский информационный критерий Шварца (BIC):
- Штрафует за размерность жестче, чем AIC, при объемах выборки
.
- Штрафует за размерность жестче, чем AIC, при объемах выборки
- Скорректированный коэффициент детерминации (
): Используется в задачах регрессии:
6. Метрики качества работы методов отбора
Интегральная оценка алгоритмов селекции оперирует не только ошибкой аппроксимации, но и показателями стабильности:
- Стабильность отбора (Индекс Жакара): Оценивает инвариантность метода к малым возмущениям обучающей выборки. Для двух подмножеств
- Скорректированный индекс Кунчевой (Kuncheva's Stability Index): Учитывает вероятность случайного совпадения признаков в высокоразмерных пространствах:
- где
— размер пересечения подмножеств, а
). Диапазон значений:
.
- где
7. Практические рекомендации и типичные ошибки
- Утечка данных (Data Leakage) при кросс-валидации: КРИТИЧЕСКАЯ И САМАЯ РАСПРОСТРАНЕННАЯ ОШИБКА. Расчет любых статистик фильтрации (например, взаимной информации или корреляций) должен производиться строго внутри тренировочных фолдов. Если выполнить отбор признаков на всей матрице
- где
- где
- Проблема группировки при мультиколлинеарности: Если в выборке присутствует группа строго коррелированных признаков (например,
- где

