Обсуждение:Оптимизация политики через самодистилляцию

Материал из MachineLearning.

✔

Напиши статью для MachineLearning.ru на тему «Self-Distillation Policy Optimization».

Требования:
- сразу укажи, что SDPO предложен в работе «Reinforcement Learning via Self-Distillation»;
- это должна быть энциклопедическая вики-статья, а не блоговый обзор;
- объясни, чем SDPO отличается от обычного RLVR и почему scalar reward создаёт bottleneck credit assignment;
- введи понятие rich feedback и self-teacher как той же модели, но с дополнительным feedback-контекстом;
- обязательно приведи основную SDPO-loss формулу через KL-дивергенцию между student и self-teacher distributions;
- отдельно объясни градиентную интерпретацию SDPO как token-level policy gradient;
- сопоставь SDPO с GRPO и объясни, в чём преимущества каждого подхода;
- упомяни практические детали: stopgrad, regularized teacher, JSD/KL, top-K distillation;
- кратко опиши результаты на LiveCodeBench v6 и идею test-time self-distillation;
- используй вики-совместимые формулы через <tex>...</tex>;
- в конце добавь разделы «См. также» и «Литература».

Текст должен быть плотным, аккуратным и рассчитанным на читателя, знакомого с RL для LLM.

Оформление http://www.machinelearning.ru/wiki/index.php?title=MachineLearning:Инструктаж

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5:%D0%9E%D0%BF%D1%82%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D0%BF%D0%BE%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B8_%D1%87%D0%B5%D1%80%D0%B5%D0%B7_%D1%81%D0%B0%D0%BC%D0%BE%D0%B4%D0%B8%D1%81%D1%82%D0%B8%D0%BB%D0%BB%D1%8F%D1%86%D0%B8%D1%8E»

Обсуждение:Оптимизация политики через самодистилляцию

Материал из MachineLearning.

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты