Отбор признаков

Материал из MachineLearning.

(Различия между версиями)

Danis Sabirov (Обсуждение | вклад)
(Новая: {{Шаблон:Философия ИИ/Статья создана с помощью ИИ|модель=Gemini Pro|проверка=Укажите_ваше_имя}} == Отбор при...)
К следующему изменению →

Версия 12:57, 23 июня 2026

Шаблон:Философия ИИ/Статья создана с помощью ИИ

Содержание

1 Отбор признаков (Feature Selection)

Отбор признаков (Feature Selection)

Отбор признаков (англ. feature selection) — процесс выбора оптимального подмножества релевантных признаков (предикторов, переменных) для построения модели машинного обучения. Цель отбора — устранение избыточных и шумовых данных, снижение эффекта «проклятия размерности», ускорение вычислений и повышение интерпретируемости модели без значительной потери её предсказательной способности.

1. Постановка задачи

Пусть задана обучающая выборка, представленная в виде матрицы объекты-признаки X из пространства R^{N × D}, где N — количество объектов, а D — исходное количество признаков (размерность пространства).

Каждому объекту x_i ∈ R^D соответствует целевая переменная y_i ∈ Y. Для задачи регрессии Y = R, для задачи классификации Y = {1, ..., K}.

Определим полное множество индексов признаков как Ω = {1, ..., D}. Задачей отбора признаков является нахождение такого подмножества индексов S ⊂ Ω мощности |S| = d (где d < D), которое минимизирует ожидаемый риск (ошибку) выбранного алгоритма обучения A:

S^* = argmin_{S ⊂ Ω} L( A( X_S ), Y )

где X_S — усеченная матрица объектов, содержащая только столбцы с индексами из подмножества S, а L — функция потерь алгоритма.

Поскольку полный перебор всех 2^D подмножеств является NP-трудной задачей, на практике применяются эвристические подходы, которые делятся на три основные категории.

2. Методы фильтрации (Filter Methods)

Методы фильтрации оценивают релевантность каждого признака независимо от конечного алгоритма обучения, используя статистические критерии выборки. Они работают очень быстро и обычно применяются как первый этап предобработки.

Корреляция Пирсона: Оценивает линейную зависимость между признаком x^(j) и целевой переменной y.

r_j = ∑_i=1..N (x_ij − μ_j)·(y_i − μ_y) / ( σ_j · σ_y )

где μ — выборочные средние, а σ — стандартные отклонения.

Взаимная информация (Mutual Information): Основана на теории информации Шеннона и способна улавливать нелинейные зависимости. Для дискретных переменных вычисляется как:

I( X^(j) ; Y ) = ∑_x∈X ∑_y∈Y p(x, y) · ln( p(x, y) / (p(x) · p(y)) )

где p(x, y) — совместная вероятность, а p(x) и p(y) — маргинальные вероятности. Признаки с наибольшим значением I отбираются в модель.

3. Методы обертывания (Wrapper Methods)

Методы обертывания используют сам алгоритм машинного обучения как «черный ящик» для оценки качества различных подмножеств признаков. Они дают высокую точность, но требуют огромных вычислительных затрат. Впервые формализованы в работе Kohavi и John (1997).

Прямой отбор (Forward Selection): Начинается с пустого множества S = ∅. На каждой итерации в множество добавляется тот признак k ∈ Ω \ S, который дает максимальный прирост качества алгоритма на кросс-валидации.
Обратное исключение (Backward Elimination): Начинается с полного множества S = Ω. На каждом шаге удаляется признак, потеря которого приводит к наименьшему падению (или наибольшему росту) качества модели.
Рекурсивное исключение признаков (Recursive Feature Elimination, RFE): Предложено Guyon et al. (2002) изначально для SVM. Строится модель на всех признаках, вычисляется их «важность» (например, веса в линейной модели), признак с наименьшим весом удаляется, и модель переобучается.

4. Встроенные методы (Embedded Methods)

Эти методы выполняют отбор признаков непосредственно в процессе обучения модели, объединяя вычислительную эффективность фильтров и точность оберток.

L1-регуляризация (LASSO): Предложена Tibshirani (1996). За счет ромбовидной геометрии нормы L1, алгоритм зануляет веса наименее информативных признаков, выполняя встроенный отбор:

L_LASSO = 1/(2N) · ∑_i=1..N (y_i − ∑_j=1..D w_jx_ij)² + λ · ∑_j=1..D |w_j|

где λ — гиперпараметр регуляризации. Чем больше λ, тем более разреженным получается вектор весов w.

Важность признаков в деревьях решений (Tree-based Feature Importance): Разработано Breiman (2001) для Случайного леса (Random Forest). Важность признака оценивается по среднему уменьшению критерия информативности (например, индекса Джини) во всех узлах дерева, где этот признак использовался для разбиения (split).

5. Функции потерь и критерии отбора

В отличие от задач глубокого обучения, где функция потерь дифференцируема (как Cross-Entropy), в алгоритмах отбора часто используются дискретные критерии, штрафующие модель за избыточную сложность.

Информационный критерий Акаике (AIC):

AIC = 2d − 2·ln(L_max)

где d — количество выбранных признаков, а L_max — максимизированная функция правдоподобия модели.

Байесовский информационный критерий (BIC):

BIC = d·ln(N) − 2·ln(L_max)

BIC накладывает более строгий штраф за добавление новых признаков при большом объеме выборки N, способствуя отбору более простых моделей.

6. Метрики качества работы методов отбора

Успешность отбора признаков нельзя оценивать исключительно по качеству предсказания. Принято использовать комплексный подход:

Стабильность отбора (Jaccard Index): При изменении обучающей выборки (например, при бутстрапе) набор отобранных признаков не должен радикально меняться. Стабильность двух подмножеств S₁ и S₂ оценивается как:

J(S₁, S₂) = |S₁ ∩ S₂| / |S₁ ∪ S₂|

Степень сжатия (Reduction Rate): Отношение числа отброшенных признаков к исходному.
Обобщающая способность (Generalization Error): Оценивается на отложенной выборке строго после завершения процедуры отбора, чтобы избежать утечки данных (Data Leakage).

7. Распространенные ошибки и практические рекомендации

Утечка данных при кросс-валидации: КРИТИЧЕСКАЯ ОШИБКА. Нельзя применять методы фильтрации (например, считать корреляцию или отбирать топ-100 признаков) ко всему набору данных X до разбиения на фолды. Отбор признаков должен производиться независимо внутри каждой итерации кросс-валидации на тренировочном фолде.
Игнорирование масштаба: Перед применением методов, зависящих от расстояний или весов (LASSO, RFE с логистической регрессией), матрицу X необходимо стандартизировать (μ = 0, σ = 1).
Мультиколлинеарность: При наличии сильно скоррелированных признаков-дубликатов методы L1-регуляризации выбирают один случайный признак из группы, обнуляя остальные. Для сохранения групп связанных переменных рекомендуется использовать Elastic Net.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9E%D1%82%D0%B1%D0%BE%D1%80_%D0%BF%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%BE%D0%B2»