Обсуждение:LightGBM

Материал из MachineLearning.

Версия от 21:11, 4 июля 2026; Nikita Saveliuk (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Промпт

Статья сгенерирована Claude по следующему промпту.

Ты специалист в области машинного обучения, профессор в ведущем техническом университете и популяризатор науки. Напиши статью для русскоязычной вики-энциклопедии MachineLearning.ru на тему «LightGBM».

Статья должна быть полезна как новичку (понятно даются определения, популярно объясняются идеи, сначала интуиция — потом формула), так и профессионалу (строгие выкладки, актуальные научные результаты, полезные ссылки). Тон — академический и живой, как хороший учебник, а не сухой реферат.

Содержательные акценты:
— Выстрой статью вокруг главного вопроса LightGBM: оптимизируется не модель (каркас тот же, что у XGBoost), а стоимость обучения. В «Постановке задачи» ввести критерий выигрыша дисперсии и явно показать два множителя стоимости — число объектов и число признаков, — которые далее атакуют два ключевых приёма.
— Разобрать с выводом, а не декларацией: гистограммный поиск расщеплений; GOSS (Gradient-based One-Side Sampling) с формулой оценки выигрыша и объяснением коэффициента (1−a)/b, удерживающего оценку несмещённой; EFB (Exclusive Feature Bundling) как сведение к раскраске графа плюс механизм смещения диапазонов; листовой (leaf-wise) рост дерева в контрасте с уровневым (level-wise).
— Включить минимум один неочевидный для эксперта факт. Здесь это обоснование несмещённости GOSS через нормировку (1−a)/b и/или оптимизация вычитанием гистограмм (гистограмма родителя = сумма дочерних, поэтому строится только меньший потомок).
— Отдельный раздел — сравнение с XGBoost и CatBoost по различающимся компонентам (стратегия роста дерева, гистограммы и сэмплирование против взвешенного квантильного эскиза, упорядоченные целевые статистики и ordered boosting у CatBoost), с практическим итогом «когда что выбирать».

Структура (обязательный порядок разделов):
вводные 2–3 абзаца без заголовка → Историческая справка → Постановка задачи → Алгоритм (с вложенными подразделами) → Свойства (Преимущества / Ограничения) → Сравнение с XGBoost и CatBoost → Применение → См. также → Ссылки → Литература → категории.

Оформление — вики-разметка MachineLearning.ru:
— Все формулы через теги <tex>...</tex>. Выключные формулы с отбивкой <br />.
— Соблюдать ограничения движка texvc: все надстрочные индексы в фигурных скобках (^{d}, а не ^d); не использовать \tfrac (только \frac); не использовать кириллицу внутри \text{...} (каждая буква превращается в [?] — русские слова выносить в обычный текст); двоеточие в множествах заменять на \mid; двоеточие вида F : R^d → R выносить в текст; индекс у закрывающей скобки оборачивать через \bigr\}_{...}; вертикальную черту с размером — через \left.\right| вместо \bigg|.
— Внутренние ссылки через [[...]], список литературы — ненумерованный (через *), источники-статьи оформлять шаблоном {{статья}}.
— Сноски <ref> не использовать (движок их не поддерживает): отсылки давать в скобках прямо в тексте вида (Ke et al., 2017), полные описания — в разделе Литература.
— Не включать блоки кода: это энциклопедия, а не туториал.
— Не использовать слова-паразиты «очевидно», «следует отметить», «легко видеть».

ЧЕКЛИСТ ПЕРЕД ПУБЛИКАЦИЕЙ:
- [ ] {{TOCright}} на второй строке
- [ ] Вводный абзац 2–3 абзаца без заголовка
- [ ] Есть == Историческая справка ==
- [ ] Разделы вложены (=== внутри ==)
- [ ] Все выключные формулы с <br /> до и после
- [ ] Нет \}_{...} — заменено на \bigr\}_{...}
- [ ] Нет \colon и : в формулах с \mathbb — вынесено в текст
- [ ] Нет \bigg| — заменено на \left.\right|
- [ ] Нет \tfrac — заменено на \frac
- [ ] Нет кириллицы внутри \text{...}
- [ ] Все ^x — заменены на ^{x}
- [ ] Сноски <ref> проверены; если ошибка — заменить на отсылки в скобках
- [ ] Литература через {{статья}} / {{книга}} / {{cite web}}, список через *
- [ ] Есть == Ссылки == с внешними URL
- [ ] Категории в конце
- [ ] Нет блоков кода
- [ ] Пустая строка между разделами
- [ ] Есть минимум один неочевидный факт для эксперта
- [ ] Промпт оформлен в Обсуждении через <pre style="white-space: pre-wrap;">
Личные инструменты