Бустинг

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Текущая версия

Статья написана с использованием LLM GPT-4 и проверена участником ~~Ilia Vdovin~~

Содержание

1 Бустинг
- 1.1 Мотивация
- 1.2 Историческая справка
2 Математическая постановка
3 AdaBoost
4 Градиентный бустинг
- 4.1 Функции потерь
5 Современные реализации
6 Теоретическое обоснование
7 Практические рекомендации
8 Преимущества и ограничения
- 8.1 Преимущества
- 8.2 Ограничения и недостатки
9 Применение
10 См. также
11 Литература и источники
12 Внешние ссылки

Бустинг

Бустинг (англ. boosting — улучшение) — это процедура последовательного построения композиции алгоритмов машинного обучения, при которой каждый следующий базовый алгоритм обучается на тех объектах, где предыдущие алгоритмы допускали наибольшие ошибки. Бустинг является одним из наиболее мощных и универсальных ансамблевых методов, лежащим в основе многих современных библиотек машинного обучения.

В отличие от бэггинга и случайного леса, где базовые алгоритмы строятся независимо и параллельно, бустинг использует последовательную, адаптивную стратегию: каждый новый классификатор "исправляет" ошибки предыдущих. Бустинг над решающими деревьями (особенно с ограниченной глубиной) считается одним из наиболее эффективных методов классификации и регрессии по качеству на многих реальных задачах.

Мотивация

Классический вопрос теории обучения: может ли комбинация слабых классификаторов (чьи ошибки лишь незначительно лучше случайного угадывания) привести к сильному классификатору с произвольно малой ошибкой? Бустинг даёт на этот вопрос положительный ответ и предлагает конкретную конструктивную процедуру.

Историческая справка

Понятие бустинга возникло в рамках теории вероятно почти корректного обучения (PAC-learning). В 1988 году Майкл Кернс поставил вопрос о возможности усиления слабых обучающихся алгоритмов^[1]. Первый эффективный алгоритм бустинга был предложен Робертом Шапиром в 1990 году, однако его практическая версия — AdaBoost — появилась в 1996 году в работе Фройнда и Шапира^[1]. Этот алгоритм произвёл революцию в машинном обучении, продемонстрировав впечатляющую обобщающую способность. Впоследствии бустинг был переосмыслен как градиентный спуск в функциональном пространстве, что привело к созданию градиентного бустинга (Jerome Friedman, 2001)^[1].

Математическая постановка

Пусть задана обучающая выборка $\{(x_i, y_i)\}_{i=1}^m$ , где $x_i \in \mathcal{X}$ — объекты, а $y_i \in \mathcal{Y}$ — ответы (для классификации обычно $\mathcal{Y} = \{-1, +1\}$ , для регрессии $\mathcal{Y} = \mathbb{R}$ ).

Требуется построить композицию базовых алгоритмов (слабых классификаторов/регрессоров) $h_t: \mathcal{X} \to \mathbb{R}$ :

$F(x) = \sum_{t=1}^T \alpha_t h_t(x)$

где $\alpha_t$ — веса (коэффициенты) базовых алгоритмов.

Итеративный процесс бустинга минимизирует некоторый эмпирический риск:

$\mathcal{L}(F) = \sum_{i=1}^m \ell(y_i, F(x_i)) \to \min_{F}$

Ограничение состоит в том, что $F$ ищется в виде суммы базовых функций, а оптимизация проводится жадно: на каждом шаге добавляется один базовый алгоритм, наилучшим образом компенсирующий текущую ошибку.

AdaBoost

AdaBoost (Adaptive Boosting) — первый практически успешный алгоритм бустинга, предназначенный для бинарной классификации.

Инициализация

Каждому объекту обучающей выборки присваивается вес $w_i^{(1)} = \frac{1}{m}$ , где $m$ — число объектов.

Итерационный процесс

Для $t = 1, \ldots, T$ :

Обучается базовый классификатор $h_t: \mathcal{X} \to \{-1, +1\}$ на выборке с весами $w_i^{(t)}$ , минимизирующий взвешенную ошибку: $\varepsilon_t = \frac{\sum_{i: h_t(x_i) \ne y_i} w_i^{(t)}}{\sum_{i=1}^m w_i^{(t)}}$
Вычисляется коэффициент "доверия" к базовому алгоритму: $\alpha_t = \frac{1}{2} \ln \frac{1 - \varepsilon_t}{\varepsilon_t}$
Обновляются веса объектов: $w_i^{(t+1)} = w_i^{(t)} \exp\left(-\alpha_t y_i h_t(x_i)\right)$ с последующей нормировкой, чтобы $\sum_i w_i^{(t+1)} = 1$ .

Важно: вес увеличивается для объектов, которые были классифицированы неверно ( $y_i h_t(x_i) = -1$ ), и уменьшается для правильно классифицированных.

Окончательное правило

Итоговый классификатор использует взвешенное голосование:

$F(x) = \sum_{t=1}^T \alpha_t h_t(x), \quad H(x) = \operatorname{sign}(F(x))$

Пример (игрушечный)

Рассмотрим двумерную выборку, линейно неразделимую. В качестве базовых алгоритмов возьмём "пни" (решающие деревья глубины 1) — пороговые классификаторы по одному из признаков. На первой итерации строится пень с минимальной ошибкой. Объекты, которые он классифицирует неверно, получают больший вес. На второй итерации новый пень будет фокусироваться на этих объектах. После нескольких итераций композиция может разделить даже сложные области.

Градиентный бустинг

Градиентный бустинг (Gradient Boosting) обобщает идею AdaBoost на произвольные дифференцируемые функции потерь и задачи регрессии, классификации с множеством классов и ранжирования.

Идея: на каждом шаге мы ищем базовый алгоритм $h_t$ , который аппроксимирует антиградиент функции потерь по текущему предсказанию:

$g_i^{(t)} = - \left[ \frac{\partial \ell(y_i, F(x_i))}{\partial F(x_i)} \right]_{F=F_{t-1}}$

Затем базовый алгоритм обучается на псевдо-остатках $\{(x_i, g_i^{(t)})\}_{i=1}^m$ , после чего находится оптимальный шаг $\rho_t$ :

$F_t(x) = F_{t-1}(x) + \rho_t h_t(x), \quad \rho_t = \arg\min_\rho \sum_{i=1}^m \ell(y_i, F_{t-1}(x_i) + \rho h_t(x_i))$

На практике часто используют константу обучения (learning rate) $\nu \in (0, 1]$ и добавляют $\nu \rho_t h_t(x)$ , что замедляет обучение и улучшает обобщение.

Функции потерь

Градиентный бустинг позволяет использовать разнообразные функции потерь:

Квадратичная $\ell(y, f) = \frac{1}{2}(y - f)^2$ (для регрессии) — псевдо-остатки равны $y - f$ .
Логистическая $\ell(y, f) = \log(1 + \exp(-2 y f))$ (для классификации) — псевдо-остатки равны $2y / (1 + \exp(2 y f))$ .
Экспоненциальная $\ell(y, f) = \exp(-y f)$ — используется в AdaBoost, приводит к перевешиванию выбросов.
Хубер (Huber) — робастная функция для регрессии, менее чувствительная к выбросам.
Девианс для многоклассовой классификации и другие.

Современные реализации

На сегодняшний день градиентный бустинг является стандартом индустрии благодаря трём основным библиотекам, которые значительно ускоряют и улучшают базовый алгоритм.

XGBoost

XGBoost (eXtreme Gradient Boosting)^[1]:

Использует регуляризацию (L1 и L2) в функции потерь при построении деревьев.
Поддерживает эффективное распараллеливание построения деревьев.
Имеет встроенную обработку пропусков в данных.
Реализует приближённый поиск оптимальных разбиений с использованием процентилей градиентов.
Поддерживает раннюю остановку и кросс-валидацию.

LightGBM

LightGBM^[1]:

Использует построение деревьев на основе гистограмм, что значительно ускоряет обучение.
Применяет листовой (leaf-wise) рост деревьев вместо уровневого (level-wise), что часто даёт лучшее качество, но требует регуляризации.
Поддерживает эффективную обработку категориальных признаков через преобразование в числовые на основе градиентов.
Оптимизирован для больших данных.

CatBoost

CatBoost^[1]:

Разработан специально для работы с категориальными признаками без необходимости предварительного кодирования.
Использует симметричные деревья, что ускоряет инференс.
Применяет метод упорядоченного бустинга, избегающего смещения (target leakage).
Обеспечивает высокое качество на данных с большим числом категорий.

Теоретическое обоснование

Ключевое понятие для понимания обобщающей способности бустинга — отступ (margin). Для объекта $(x, y)$ и композиции $F$ отступ определяется как $M = y F(x)$ . Положительный отступ означает правильную классификацию, а его величина — "уверенность".

Теоремы Шапира и др.^[1] показывают, что обобщающая ошибка может быть оценена через распределение отступов:

$P(\text{test error}) \le P_{\text{train}}(M \le \theta) + \tilde{O}\left(\sqrt{\frac{d}{m \theta^2}}\right)$

где $d$ — сложность базового алгоритма (например, VC-размерность). Таким образом, даже если число базовых алгоритмов велико, увеличение отступов (сдвиг распределения вправо) может компенсировать рост сложности. Это объясняет феномен отсутствия переобучения при очень большом $T$ во многих задачах.

Тем не менее, теоретические оценки далеко не всегда точны на практике, и при недостаточной регуляризации или наличии шума бустинг может переобучаться^[1]. Современные реализации включают механизмы регуляризации, ранней остановки и контроля сложности для предотвращения переобучения.

Практические рекомендации

Выбор базового алгоритма: для большинства задач используются решающие деревья небольшой глубины (обычно 3–8 уровней) или деревья с ограниченным числом листьев.
Число итераций $T$ : выбирается с помощью ранней остановки на валидационной выборке; часто достаточно нескольких сотен или тысяч итераций.
Скорость обучения ( $\nu$ ): малые значения (0.01–0.1) улучшают обобщение, но требуют большего $T$ .
Регуляризация: в XGBoost/LightGBM регулируется параметрами $\lambda, \gamma, \eta, \text{max\_depth}$ , $\text{min\_child\_weight}$ .
Обработка дисбаланса классов: используйте веса классов, настройку порога или специализированные функции потерь.
Подготовка данных: градиентный бустинг устойчив к масштабированию признаков, но чувствителен к выбросам (особенно при квадратичной ошибке). Для категориальных признаков используйте CatBoost или One-Hot-кодирование с регуляризацией.

Преимущества и ограничения

Преимущества

Высокая точность на табличных данных; часто лучший результат на соревнованиях (Kaggle и др.).
Гибкость: возможность использовать различные функции потерь; поддержка классификации, регрессии, ранжирования.
Устойчивость к переобучению при правильной настройке.
Хорошая интерпретируемость (возможность оценить важность признаков).

Ограничения и недостатки

Чувствительность к шуму и выбросам (особенно AdaBoost с экспоненциальной потерей).
Требовательность к вычислительным ресурсам при большом числе итераций и объёме данных, хотя современные реализации оптимизированы.
Склонность к переобучению на очень разреженных данных или при недостаточной регуляризации.
Сложность настройки гиперпараметров, требующая опыта и валидации.
Плохо работает с категориальными признаками без специальной обработки (исключая CatBoost).
Менее эффективен на данных с высокой размерностью (например, изображения, текст) по сравнению с нейронными сетями.

Применение

Поскольку градиентный бустинг показывает выдающиеся результаты на структурированных табличных данных и устойчив к пропускам, он является стандартом де-факто во многих прикладных областях:

Медицина и здравоохранение: прогнозирование рисков заболеваний, анализ выживаемости пациентов и разработка виртуальных биомаркеров (предсказание результатов сложных и дорогостоящих медицинских тестов на основе базовых анализов из электронных медицинских карт).
Финансовый сектор: кредитный скоринг, обнаружение мошеннических транзакций (fraud detection), оценка рисков.
Интернет-технологии: машинное ранжирование в поисковых системах, рекомендательные алгоритмы, предсказание кликабельности рекламы (CTR).

См. также

Литература и источники

Внешние ссылки

Полный промпт, использованный при создании этой статьи, доступен на странице обсуждения.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%91%D1%83%D1%81%D1%82%D0%B8%D0%BD%D0%B3»

Категории: Методы голосования | Ансамблевые методы | Машинное обучение

Бустинг

Материал из MachineLearning.

Текущая версия

Содержание

Бустинг

Мотивация

Историческая справка

Математическая постановка

AdaBoost

Инициализация

Итерационный процесс

Окончательное правило

Пример (игрушечный)

Градиентный бустинг

Функции потерь

Современные реализации

XGBoost

LightGBM

CatBoost

Теоретическое обоснование

Практические рекомендации

Преимущества и ограничения

Преимущества

Ограничения и недостатки

Применение

См. также

Литература и источники

Внешние ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты

@@ Строка 1: / Строка 1: @@
-{{Задание|DmitryKonstantinov|Константин Воронцов|8 января 2010}}
+{{well|Статья написана с использованием LLM '''GPT-4''' и проверена участником ~~Ilia Vdovin~~}}
-Бустинг (англ. boosting — улучшение) — это процедура последовательного построения композиции алгоритмов [[Машинное обучение|машинного обучения]], когда каждый следующий алгоритм стремится компенсировать недостатки композиции всех предыдущих алгоритмов. Бустинг представляет собой жадный алгоритм построения композиции алгоритмов и является частным случаем алгоритмической композиции. Изначально понятие бустинга возникло в работах по [[Теория Валианта|вероятно почти корректному обучению]] в связи с вопросом: возможно ли, имея множество плохих (незначительно отличающихся от случайных) алгоритмов обучения, получить хороший<ref>Michael Kearns.  Thoughts on hypothesis boosting. Unpublished manuscript. 1988</ref>.
-В течение последних 10 лет бустинг остаётся одним из наиболее популярных методов машинного обучения, наряду с нейронными сетями и машинами опорных векторов. Основные причины простота, универсальность, гибкость (возможность построения различных модификаций), и, главное, высокая обобщающая способность.
+== Бустинг ==
-Бустинг над [[Решающее дерево | решающими деревьями]] считается одним из наиболее эффективных методов с точки зрения качества [[Классификация|классификации]]. Во многих экспериментах наблюдалось практически неограниченное уменьшение частоты ошибок на независимой тестовой [[Выборка|выборке]] по мере наращивания композиции. Более того, качество на тестовой выборке часто продолжало улучшаться даже после достижения безошибочного распознавания всей обучающей выборки <ref>Freund Y., Schapire R. E. Experiments with a new boosting algorithm //International Conference on Machine Learning, — 1996. — Pp. 148–156.</ref>. Это перевернуло существовавшие долгое время представления о том, что для повышения обобщающей способности необходимо ограничивать сложность алгоритмов. На примере бустинга стало понятно, что хорошим качеством могут обладать сколь угодно сложные композиции, если их правильно настраивать.
+'''Бустинг''' (англ. ''boosting'' — улучшение) — это процедура последовательного построения [[композиция алгоритмов|композиции алгоритмов]] [[машинное обучение|машинного обучения]], при которой каждый следующий базовый алгоритм обучается на тех объектах, где предыдущие алгоритмы допускали наибольшие ошибки. Бустинг является одним из наиболее мощных и универсальных ансамблевых методов, лежащим в основе многих современных библиотек машинного обучения.
-Впоследствии феномен бустинга получил теоретическое обоснование. Оказалось, что взвешенное голосование не увеличивает эффективную сложность алгоритма, а лишь сглаживает ответы базовых алгоритмов. Количественные оценки обобщающей способности бустинга формулируются в терминах [[Отступ | отступа]] <ref name="margin">Boosting the margin: a new explanation for the effectiveness of voting methods / R. E. Schapire, Y. Freund, W. S. Lee, P. Bartlett // Annals of Statistics, — 1998.
+В отличие от [[бэггинг]]а и [[случайный лес|случайного леса]], где базовые алгоритмы строятся независимо и параллельно, бустинг использует последовательную, ''адаптивную'' стратегию: каждый новый классификатор "исправляет" ошибки предыдущих. Бустинг над [[решающее дерево|решающими деревьями]] (особенно с ограниченной глубиной) считается одним из наиболее эффективных методов классификации и регрессии по качеству на многих реальных задачах.
-Vol. 26, no. 5. — Pp. 1651–1686.</ref>. Эффективность бустинга объясняется тем, что по мере добавления базовых алгоритмов увеличиваются отступы обучающих объектов. Причём бустинг продолжает раздвигать классы даже после достижения безошибочной классификации обучающей выборки. Впервые идея
-К сожалению, теоретические оценки обобщающей способности <ref name="margin"/> дают лишь качественное обоснование феномену бустинга. Хотя они существенно точнее более общих [[Теория Вапника-Червоненкиса|оценок Вапника-Червоненкиса]]<ref> Vapnik V. Statistical Learning Theory. Wiley, New York, — 1998.
+=== Мотивация ===
-[</ref>, всё же они сильно завышены, и требуемая длина обучающей выборки оценивается величиной порядка <tex>10^4 \dots 10^6</tex>. Более основательные эксперименты показали, что иногда бустинг всё же [[Переобучение|переобучается]] <ref>Ratsch G., Onoda T., Muller K. R. An improvement of adaboost to avoid verfitting // Advances in Neutral Information Processing Systems, Kitakyushu, Japan. — 1998. — Pp. 506–509.</ref> <ref>Ratsch G., Onoda T., Muller K.-R. Soft margins for AdaBoost // Machine Learning. — 2001. Vol. 42, no. 3. — Pp. 287–320.</ref> .
+Классический вопрос теории обучения: может ли комбинация ''слабых'' классификаторов (чьи ошибки лишь незначительно лучше случайного угадывания) привести к ''сильному'' классификатору с произвольно малой ошибкой? Бустинг даёт на этот вопрос положительный ответ и предлагает конкретную конструктивную процедуру.
+=== Историческая справка ===
+Понятие бустинга возникло в рамках [[теория Валианта|теории вероятно почти корректного обучения]] (PAC-learning). В 1988 году [[Майкл Кернс]] поставил вопрос о возможности усиления слабых обучающихся алгоритмов<ref>Michael Kearns. Thoughts on hypothesis boosting. Unpublished manuscript. 1988.</ref>. Первый эффективный алгоритм бустинга был предложен [[Роберт Шапир|Робертом Шапиром]] в 1990 году, однако его практическая версия — [[AdaBoost]] — появилась в 1996 году в работе Фройнда и Шапира<ref name="freund96">Freund Y., Schapire R. E. A decision-theoretic generalization of on-line learning and an application to boosting // Journal of Computer and System Sciences. — 1997. Vol. 55, no. 1. — Pp. 119–139.</ref>. Этот алгоритм произвёл революцию в машинном обучении, продемонстрировав впечатляющую обобщающую способность. Впоследствии бустинг был переосмыслен как [[градиентный спуск]] в функциональном пространстве, что привело к созданию градиентного бустинга ([[Jerome Friedman]], 2001)<ref name="friedman01">Friedman J. H. Greedy function approximation: a gradient boosting machine // Annals of Statistics. — 2001. Vol. 29, no. 5. — Pp. 1189–1232.</ref>.
+== Математическая постановка ==
+Пусть задана обучающая выборка <tex>\{(x_i, y_i)\}_{i=1}^m</tex>, где <tex>x_i \in \mathcal{X}</tex> — объекты, а <tex>y_i \in \mathcal{Y}</tex> — ответы (для классификации обычно <tex>\mathcal{Y} = \{-1, +1\}</tex>, для регрессии <tex>\mathcal{Y} = \mathbb{R}</tex>).
+Требуется построить композицию базовых алгоритмов (слабых классификаторов/регрессоров) <tex>h_t: \mathcal{X} \to \mathbb{R}</tex>:
+<tex>F(x) = \sum_{t=1}^T \alpha_t h_t(x)</tex>
+где <tex>\alpha_t</tex> — веса (коэффициенты) базовых алгоритмов.
+Итеративный процесс бустинга минимизирует некоторый эмпирический риск:
+<tex>\mathcal{L}(F) = \sum_{i=1}^m \ell(y_i, F(x_i)) \to \min_{F}</tex>
+Ограничение состоит в том, что <tex>F</tex> ищется в виде суммы базовых функций, а оптимизация проводится ''жадно'': на каждом шаге добавляется один базовый алгоритм, наилучшим образом компенсирующий текущую ошибку.
+== AdaBoost ==
+'''AdaBoost''' (Adaptive Boosting) — первый практически успешный алгоритм бустинга, предназначенный для бинарной классификации.
+=== Инициализация ===
+Каждому объекту обучающей выборки присваивается вес <tex>w_i^{(1)} = \frac{1}{m}</tex>, где <tex>m</tex> — число объектов.
+=== Итерационный процесс ===
+Для <tex>t = 1, \ldots, T</tex>:
+# Обучается базовый классификатор <tex>h_t: \mathcal{X} \to \{-1, +1\}</tex> на выборке с весами <tex>w_i^{(t)}</tex>, минимизирующий взвешенную ошибку: <tex>\varepsilon_t = \frac{\sum_{i: h_t(x_i) \ne y_i} w_i^{(t)}}{\sum_{i=1}^m w_i^{(t)}}</tex>
+# Вычисляется коэффициент "доверия" к базовому алгоритму: <tex>\alpha_t = \frac{1}{2} \ln \frac{1 - \varepsilon_t}{\varepsilon_t}</tex>
+# Обновляются веса объектов: <tex>w_i^{(t+1)} = w_i^{(t)} \exp\left(-\alpha_t y_i h_t(x_i)\right)</tex> с последующей нормировкой, чтобы <tex>\sum_i w_i^{(t+1)} = 1</tex>.
+Важно: вес увеличивается для объектов, которые были классифицированы неверно (<tex>y_i h_t(x_i) = -1</tex>), и уменьшается для правильно классифицированных.
+=== Окончательное правило ===
+Итоговый классификатор использует взвешенное голосование:
+<tex>F(x) = \sum_{t=1}^T \alpha_t h_t(x), \quad H(x) = \operatorname{sign}(F(x))</tex>
+=== Пример (игрушечный) ===
+Рассмотрим двумерную выборку, линейно неразделимую. В качестве базовых алгоритмов возьмём "пни" (решающие деревья глубины 1) — пороговые классификаторы по одному из признаков. На первой итерации строится пень с минимальной ошибкой. Объекты, которые он классифицирует неверно, получают больший вес. На второй итерации новый пень будет фокусироваться на этих объектах. После нескольких итераций композиция может разделить даже сложные области.
+== Градиентный бустинг ==
+'''Градиентный бустинг''' (Gradient Boosting) обобщает идею AdaBoost на произвольные дифференцируемые функции потерь и задачи регрессии, классификации с множеством классов и ранжирования.
+Идея: на каждом шаге мы ищем базовый алгоритм <tex>h_t</tex>, который аппроксимирует ''антиградиент'' функции потерь по текущему предсказанию:
+<tex>g_i^{(t)} = - \left[ \frac{\partial \ell(y_i, F(x_i))}{\partial F(x_i)} \right]_{F=F_{t-1}}</tex>
+Затем базовый алгоритм обучается на псевдо-остатках <tex>\{(x_i, g_i^{(t)})\}_{i=1}^m</tex>, после чего находится оптимальный шаг <tex>\rho_t</tex>:
+<tex>F_t(x) = F_{t-1}(x) + \rho_t h_t(x), \quad \rho_t = \arg\min_\rho \sum_{i=1}^m \ell(y_i, F_{t-1}(x_i) + \rho h_t(x_i))</tex>
+На практике часто используют константу обучения (learning rate) <tex>\nu \in (0, 1]</tex> и добавляют <tex>\nu \rho_t h_t(x)</tex>, что замедляет обучение и улучшает обобщение.
+=== Функции потерь ===
+Градиентный бустинг позволяет использовать разнообразные функции потерь:
+* '''Квадратичная''' <tex>\ell(y, f) = \frac{1}{2}(y - f)^2</tex> (для регрессии) — псевдо-остатки равны <tex>y - f</tex>.
+* '''Логистическая''' <tex>\ell(y, f) = \log(1 + \exp(-2 y f))</tex> (для классификации) — псевдо-остатки равны <tex>2y / (1 + \exp(2 y f))</tex>.
+* '''Экспоненциальная''' <tex>\ell(y, f) = \exp(-y f)</tex> — используется в AdaBoost, приводит к перевешиванию выбросов.
+* '''Хубер''' (Huber) — робастная функция для регрессии, менее чувствительная к выбросам.
+* '''Девианс''' для многоклассовой классификации и другие.
+== Современные реализации ==
+На сегодняшний день градиентный бустинг является стандартом индустрии благодаря трём основным библиотекам, которые значительно ускоряют и улучшают базовый алгоритм.
+=== XGBoost ===
+'''XGBoost''' (eXtreme Gradient Boosting)<ref>Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System // Proceedings of the 22nd ACM SIGKDD. — 2016. — Pp. 785–794.</ref>:
+* Использует регуляризацию (L1 и L2) в функции потерь при построении деревьев.
+* Поддерживает эффективное распараллеливание построения деревьев.
+* Имеет встроенную обработку пропусков в данных.
+* Реализует ''приближённый'' поиск оптимальных разбиений с использованием процентилей градиентов.
+* Поддерживает раннюю остановку и кросс-валидацию.
+=== LightGBM ===
+'''LightGBM'''<ref>Ke G. et al. LightGBM: A Highly Efficient Gradient Boosting Decision Tree // Advances in Neural Information Processing Systems. — 2017. — Pp. 3146–3154.</ref>:
+* Использует построение деревьев на основе гистограмм, что значительно ускоряет обучение.
+* Применяет ''листовой'' (leaf-wise) рост деревьев вместо уровневого (level-wise), что часто даёт лучшее качество, но требует регуляризации.
+* Поддерживает эффективную обработку категориальных признаков через преобразование в числовые на основе градиентов.
+* Оптимизирован для больших данных.
+=== CatBoost ===
+'''CatBoost'''<ref>Prokhorenkova L. et al. CatBoost: unbiased boosting with categorical features // Journal of Machine Learning Research. — 2018. Vol. 19, no. 1. — Pp. 1–67.</ref>:
+* Разработан специально для работы с категориальными признаками без необходимости предварительного кодирования.
+* Использует симметричные деревья, что ускоряет инференс.
+* Применяет метод ''упорядоченного бустинга'', избегающего смещения (target leakage).
+* Обеспечивает высокое качество на данных с большим числом категорий.
+== Теоретическое обоснование ==
+Ключевое понятие для понимания обобщающей способности бустинга — '''[[отступ]]''' (margin). Для объекта <tex>(x, y)</tex> и композиции <tex>F</tex> отступ определяется как <tex>M = y F(x)</tex>. Положительный отступ означает правильную классификацию, а его величина — "уверенность".
+Теоремы Шапира и др.<ref name="margin">Schapire R. E., Freund Y., Lee W. S., Bartlett P. Boosting the margin: a new explanation for the effectiveness of voting methods // Annals of Statistics. — 1998. Vol. 26, no. 5. — Pp. 1651–1686.</ref> показывают, что обобщающая ошибка может быть оценена через распределение отступов:
+<tex>P(\text{test error}) \le P_{\text{train}}(M \le \theta) + \tilde{O}\left(\sqrt{\frac{d}{m \theta^2}}\right)</tex>
+где <tex>d</tex> — сложность базового алгоритма (например, VC-размерность). Таким образом, даже если число базовых алгоритмов велико, увеличение отступов (сдвиг распределения вправо) может компенсировать рост сложности. Это объясняет феномен отсутствия переобучения при очень большом <tex>T</tex> во многих задачах.
+Тем не менее, теоретические оценки далеко не всегда точны на практике, и при недостаточной регуляризации или наличии шума бустинг может переобучаться<ref>Rätsch G., Onoda T., Müller K. R. Soft margins for AdaBoost // Machine Learning. — 2001. Vol. 42, no. 3. — Pp. 287–320.</ref>. Современные реализации включают механизмы регуляризации, ранней остановки и контроля сложности для предотвращения переобучения.
+== Практические рекомендации ==
+# '''Выбор базового алгоритма''': для большинства задач используются [[решающее дерево|решающие деревья]] небольшой глубины (обычно 3–8 уровней) или деревья с ограниченным числом листьев.
+# '''Число итераций''' <tex>T</tex>: выбирается с помощью ранней остановки на валидационной выборке; часто достаточно нескольких сотен или тысяч итераций.
+# '''Скорость обучения''' (<tex>\nu</tex>): малые значения (0.01–0.1) улучшают обобщение, но требуют большего <tex>T</tex>.
+# '''Регуляризация''': в XGBoost/LightGBM регулируется параметрами <tex>\lambda, \gamma, \eta, \text{max\_depth}</tex>, <tex>\text{min\_child\_weight}</tex>.
+# '''Обработка дисбаланса классов''': используйте веса классов, настройку порога или специализированные функции потерь.
+# '''Подготовка данных''': градиентный бустинг устойчив к масштабированию признаков, но чувствителен к выбросам (особенно при квадратичной ошибке). Для категориальных признаков используйте CatBoost или One-Hot-кодирование с регуляризацией.
+== Преимущества и ограничения ==
+=== Преимущества ===
+* Высокая точность на табличных данных; часто лучший результат на соревнованиях (Kaggle и др.).
+* Гибкость: возможность использовать различные функции потерь; поддержка классификации, регрессии, ранжирования.
+* Устойчивость к переобучению при правильной настройке.
+* Хорошая интерпретируемость (возможность оценить важность признаков).
+=== Ограничения и недостатки ===
+* Чувствительность к шуму и выбросам (особенно AdaBoost с экспоненциальной потерей).
+* Требовательность к вычислительным ресурсам при большом числе итераций и объёме данных, хотя современные реализации оптимизированы.
+* Склонность к переобучению на очень разреженных данных или при недостаточной регуляризации.
+* Сложность настройки гиперпараметров, требующая опыта и валидации.
+* Плохо работает с категориальными признаками без специальной обработки (исключая CatBoost).
+* Менее эффективен на данных с высокой размерностью (например, изображения, текст) по сравнению с нейронными сетями.
+== Применение ==
+Поскольку градиентный бустинг показывает выдающиеся результаты на структурированных табличных данных и устойчив к пропускам, он является стандартом де-факто во многих прикладных областях:
+* '''Медицина и здравоохранение:''' прогнозирование рисков заболеваний, анализ выживаемости пациентов и разработка '''[[Виртуальные биомаркеры|виртуальных биомаркеров]]''' (предсказание результатов сложных и дорогостоящих медицинских тестов на основе базовых анализов из электронных медицинских карт).
+* '''Финансовый сектор:''' кредитный скоринг, обнаружение мошеннических транзакций (fraud detection), оценка рисков.
+* '''Интернет-технологии:''' машинное ранжирование в поисковых системах, рекомендательные алгоритмы, предсказание кликабельности рекламы (CTR).
+== См. также ==
+* [[Композиция алгоритмов]]
+* [[AdaBoost]]
+* [[Слабый классификатор]]
+* [[Отступ]]
+* [[Решающее дерево]]
+* [[Случайный лес]]
+* [[Бэггинг]]
+* [[Градиентный спуск]]
+* [[Переобучение]]
+* [[Регуляризация]]
+== Литература и источники ==
-== Варианты бустинга ==
-Существует большое количество алгоритмов бустинга.
-* [[Алгоритм AdaBoost | AdaBoost]]
-* [[GentleBoost]]
-* [[LogitBoost]]
-* [[BrownBoost]]
-* [[LPBoost]]
-* [[TotalBoost]]
-* [[MadaBoost]]
-* [[AnyBoost]] — бустинг как процесс градиентного спуска.
-== Ссылки ==
 <references/>
-== Материалы ==
-* [[Машинное обучение (курс лекций, К.В.Воронцов)]]
+== Внешние ссылки ==
 * [http://www.cs.princeton.edu/~schapire/boost.html Подборка материалов по бустингу Роберта Шапира]
+* [https://xgboost.readthedocs.io/ Документация XGBoost]
+* [https://lightgbm.readthedocs.io/ Документация LightGBM]
+* [https://catboost.ai/ Документация CatBoost]
+* [[Машинное обучение (курс лекций, К.В.Воронцов)]]
+Полный промпт, использованный при создании этой статьи, доступен на [[Обсуждение:Бустинг|странице обсуждения]].
 [[Категория:Методы голосования]]
+[[Категория:Ансамблевые методы]]
+[[Категория:Машинное обучение]]