Отбор признаков
Материал из MachineLearning.
Шаблон:Философия ИИ/Статья создана с помощью ИИ
Отбор признаков (Feature Selection)
Отбор признаков (англ. feature selection) — процесс выбора оптимального подмножества релевантных признаков (предикторов, переменных) для построения модели машинного обучения. Отбор признаков преследует несколько фундаментальных целей: преодоление «проклятия размерности» (curse of dimensionality), устранение мультиколлинеарности, минимизация времени обучения и радикальное повышение интерпретируемости результирующих моделей при сохранении или увеличении их обобщающей способности.
1. Математическая постановка задачи
Пусть задана обучающая выборка, представленная в виде матрицы объекты-признаки , где
— количество независимых объектов (наблюдений), а
— исходная размерность признакового пространства. Каждому объекту (строке матрицы)
поставлен в соответствие истинный ответ (целевая переменная)
. Для задач регрессии
, для задач многоклассовой классификации
.
Определим полное множество индексов исходных признаков как:
Задачей отбора признаков является нахождение оптимального подмножества индексов фиксированной или переменной мощности
(где
), которое минимизирует функционал эмпирического риска выбранного базового алгоритма обучения
на отложенной выборке:
- где
— усеченная матрица объектов размерности
, содержащая только столбцы с индексами из множества
,
— функция потерь алгоритма, а
— размер валидационной выборки.
- где
Полный перебор всех возможных комбинаций требует оценки вариантов, что представляет собой NP-трудную задачу. В силу этого на практике применяются эвристические подходы, разделяемые на три класса: фильтрация (filters), обертывание (wrappers) и встроенные методы (embedded).
2. Методы фильтрации (Filter Methods)
Методы фильтрации оценивают статистические свойства признаков изолированно от структуры и параметров финальной прогностической модели. Из-за вычислительной простоты они используются в качестве методов быстрой предварительной фильтрации (screener).
- Порог дисперсии (Variance Threshold): Устраняет константные и квазиконстантные признаки, не несущие дискриминативной информации. Признак
:
- Линейный коэффициент корреляции Пирсона: Из

