Метод комитетов

Материал из MachineLearning.

Версия от 20:30, 2 июля 2026; Kirill Bazhutov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Статья написана с использованием LLM Gemini и проверена участником Kirill Bazhutov 00:30, 3 июля 2026 (MSD)

Метод комитетов (также ансамблевое обучение, committee machines) — парадигма машинного обучения, в которой для решения задачи строится композиция из нескольких базовых алгоритмов (base learners) с целью повышения точности, устойчивости и обобщающей способности модели.

В русскоязычной академической литературе часто используются термины-синонимы: Ансамбль моделей, Композиция алгоритмов, комитет экспертов.

Содержание

1 Историческая и теоретическая справка
2 Статистическое обоснование: смещение и дисперсия
3 Основные стратегии формирования комитетов
4 Математическая модель и векторизация вычислений
5 Преимущества и ограничения
6 См. также
7 Литература

Историческая и теоретическая справка

Исторической и интуитивной предпосылкой идеи комитетов часто называют теорему Кондорсе о жюри присяжных (Condorcet's jury theorem, 1785 год). Теорема гласит: если решения членов жюри независимы, а каждый член принимает верное решение с вероятностью $p > 0.5$ , то вероятность вынесения верного решения большинством голосов стремится к 1 при увеличении числа членов жюри $N \to \infty$ .

В контексте машинного обучения этот принцип начал активно формализоваться в 1990-х годах. Работа Роберта Шапира (Robert Schapire) 1990 года доказала, что совокупность «слабых» алгоритмов может быть объединена в сильную композицию. Слабым алгоритмом называется модель, качество которой лишь немного превосходит случайное угадывание, но стабильно лучше него. Было доказано, что такая совокупность может быть преобразована в сильный алгоритм при выполнении условий слабой обучаемости (PAC-learning).

Статистическое обоснование: смещение и дисперсия

Один из способов теоретического объяснения эффективности ансамблей основан на разложении ожидаемой среднеквадратичной ошибки в задачах регрессии на смещение, дисперсию и неустранимый шум (Bias-Variance tradeoff). Для фиксированного объекта $x$ , при предположении, что истинная зависимость имеет вид $y = f(x) + \varepsilon$ , это разложение записывается как:

$\mathbb{E}\left[(y - \hat{f}(x))^2\right] = \text{Bias}(\hat{f}(x))^2 + \text{Var}(\hat{f}(x)) + \sigma_{noise}^2$

Рассмотрим ансамбль из $M$ базовых моделей $h_m(x)$ . При условии, что ошибки базовых моделей независимы, а сами модели имеют одинаковое ожидаемое предсказание и одинаковую дисперсию, усреднение снижает дисперсию композиции в $M$ раз без изменения смещения:

$\text{Var}\left(\frac{1}{M}\sum_{m=1}^M h_m(x)\right) = \frac{1}{M}\text{Var}(h_1(x))$

На практике базовые модели часто обучаются на пересекающихся выборках или используют сходные признаки, поэтому их ошибки оказываются скоррелированными. При предположении одинаковой дисперсии базовых моделей $\sigma^2$ и одинаковой попарной корреляции их ошибок $\rho$ , дисперсия композиции равна:

$\text{Var} = \rho \sigma^2 + \frac{1-\rho}{M} \sigma^2$

Из этой формулы видно, что для максимального снижения дисперсии базовые модели должны быть максимально разнообразными (decorrelated, $\rho \to 0$ ).

Основные стратегии формирования комитетов

Голосование и усреднение

Простейшая форма комитета — усреднение ответов базовых моделей в задачах регрессии или голосование в классификации. При жёстком голосовании (hard voting) итоговый класс выбирается большинством голосов, а при мягком (soft voting) — усредняются предсказанные вероятности классов.

Бэггинг (Bagging)

От англ. Bootstrap aggregating. Стратегия направлена на снижение дисперсии. Базовые алгоритмы (часто глубокие деревья решений) обучаются независимо на случайных подвыборках, сгенерированных методом бутстрапа. В бэггинге часть объектов не попадает в бутстрап-выборку для конкретной модели; такие объекты могут использоваться для оценки качества вне выборки (Out-of-Bag error, OOB).

Частным случаем является Случайный лес (Random Forest), который дополнительно декоррелирует модели за счёт случайного выбора подмножества признаков в каждом узле дерева (метод случайных подпространств).

Бустинг (Boosting)

Бустинг обычно рассматривается как стратегия, способная снижать смещение за счёт последовательного исправления ошибок предыдущей композиции. Каждая новая модель $h_m(x)$ настраивается на ошибки предыдущих $m-1$ моделей.

AdaBoost (Adaptive Boosting): увеличивает веса объектов, на которых предыдущие модели ошиблись.
Градиентный бустинг (Gradient Boosting): каждая новая модель обучается аппроксимировать антиградиент функции потерь; в случае среднеквадратичной ошибки (MSE) он совпадает с остатками. Современные эффективные реализации градиентного бустинга представлены такими библиотеками, как XGBoost, LightGBM и CatBoost.

Стэкинг и Блендинг

Стэкинг (Stacking) — метод мета-обучения. Прогнозы базовых алгоритмов первого уровня используются в качестве признаков для алгоритма второго уровня (мета-модели), который учится комбинировать их ответы. На практике для обучения мета-модели обычно используют out-of-fold-предсказания, полученные с помощью кросс-валидации, чтобы избежать утечки целевой переменной и переобучения. В качестве мета-модели часто используют логистическую регрессию или линейные модели с регуляризацией (например, Lasso) для отбора наиболее полезных базовых алгоритмов.

Блендинг (Blending) — упрощённая версия стэкинга, где мета-модель обучается на отдельной отложенной (hold-out) выборке.

Математическая модель и векторизация вычислений

В современных библиотеках (например, NumPy) агрегация ответов комитета реализуется через эффективные матричные операции.

Пусть имеется выборка из $N$ объектов и комитет из $M$ алгоритмов. Сформируем матрицу ответов $H \in \mathbb{R}^{N \times M}$ , где элемент $H_{i,j}$ — предсказание $j$ -й модели для $i$ -го объекта. Вектор весов моделей обозначим как $w \in \mathbb{R}^M$ . Обычно веса нормируются так, что $w_j \ge 0$ и $\sum_{j=1}^{M} w_j = 1$ ; при простом усреднении $w_j = 1/M$ .

Вектор итоговых предсказаний ансамбля $a \in \mathbb{R}^N$ для регрессии вычисляется матрично-векторным умножением:

$a = H w$

Для многоклассовой классификации на $K$ классов матрица ответов обобщается до трёхмерного тензора $P \in \mathbb{R}^{N \times M \times K}$ . Агрегация (soft voting) записывается как взвешенное суммирование по оси моделей:

$a_{i,k} = \sum_{j=1}^M P_{i,j,k} w_j$

Итоговый класс выбирается как класс с максимальной агрегированной вероятностью:

$\hat{y}_i = \arg\max_k a_{i,k}$

Преимущества и ограничения

Преимущества:

Повышение качества. Ансамбли часто превосходят одиночные модели, особенно при достаточном разнообразии базовых алгоритмов.
Снижение дисперсии и склонности нестабильных моделей к переобучению, особенно в бэггинге и случайном лесу.
Возможность объединять алгоритмы разной природы (деревья, нейронные сети, линейные классификаторы).

Ограничения:

Эффект ансамблирования снижается, если базовые модели сильно скоррелированы и совершают похожие ошибки.
Возрастание вычислительной сложности и потребления памяти (увеличивается время обучения и латентность вывода).
Снижение интерпретируемости: композиция из большого числа базовых моделей может становиться «чёрным ящиком» (black box), хотя существуют методы оценки важности признаков (Feature Importance, SHAP).

См. также

Литература

Schapire R. E. The strength of weak learnability // Machine Learning. — 1990. — Т. 5. — С. 197–227.
Breiman L. Bagging predictors // Machine Learning. — 1996. — Т. 24. — С. 123–140.
Freund Y., Schapire R. E. A decision-theoretic generalization of on-line learning and an application to boosting // Journal of Computer and System Sciences. — 1997. — Т. 55. — № 1. — С. 119–139.
Friedman J. H. Greedy function approximation: A gradient boosting machine // Annals of Statistics. — 2001. — Т. 29. — № 5. — С. 1189–1232.
Breiman L. Random Forests // Machine Learning. — 2001. — Т. 45. — С. 5–32.
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. — Springer, 2009.
Zhou Z.-H. Ensemble Methods: Foundations and Algorithms. — Chapman and Hall/CRC, 2012. — ISBN 978-1439830031
Chen T., Guestrin C. XGBoost: A scalable tree boosting system // KDD. — 2016.
Ke G. et al. LightGBM: A highly efficient gradient boosting decision tree // NeurIPS. — 2017.
Prokhorenkova L. et al. CatBoost: unbiased boosting with categorical features // NeurIPS. — 2018.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%BA%D0%BE%D0%BC%D0%B8%D1%82%D0%B5%D1%82%D0%BE%D0%B2»

Категории: Машинное обучение | Энциклопедия анализа данных