Результаты поиска
Материал из MachineLearning.
По запросу «RLHF»
Страницы с названием «RLHF» не существует.
Для получения более подробной информации о поиске на страницах проекта, см. справочный раздел.
Ниже показаны 12 результатов, начиная с № 1.
Просмотреть (предыдущие 20) (следующие 20) (20 | 50 | 100 | 250 | 500)
Нет совпадений в названиях статей
Совпадения в текстах статей
- Философия. Введение в ИИ (курс лекций, К.В.Воронцов)/Задание 1/Выполнение (17 896 байт)
235: ...з обратной связи человека (RLHF)]] - Direct Preference Optimization (18 459 байт)
3: ...а классическому конвейеру RLHF, в котором сначала обучает...
11: Классическая схема RLHF включает несколько шагов:
34: == Связь с RLHF ==
36: ...тесно связан с постановкой RLHF, в которой ищется стратеги...
38: ...лиза одной из классических RLHF-постановок и переводит его... - Большая языковая модель (9785 байт)
39: ...из обратной связи человека|RLHF]]), включающее: - Промпт-инжиниринг (11 710 байт)
94: ...братной связи человека (RLHF)|RLHF-дообучение]] дополняют дру...
118: ...з обратной связи человека (RLHF)]] - RubricRL (16 387 байт)
17: ...андартный обходной путь — RLHF с preference data или reward model. Авто...
22: ...уточный вариант между RLVR и RLHF: reward строится из явных, чел...
123: В RLHF человек обычно сообщает, к... - Нейросетевое встраивание (8233 байта)
82: ...братной связи человека (RLHF)|RLHF]] — reward model использует эмбе...
90: ...з обратной связи человека (RLHF)]] - Обучение с подкреплением из обратной связи человека (RLHF) (9339 байт)
5: ...е заданной функции потерь. RLHF позволяет согласовать пов...
9: ...ель, настроенная с помощью RLHF, может значительно превосх...
13: Стандартный пайплайн RLHF включает три этапа:
59: ...failov et al., 2023) — альтернатива RLHF, исключающая явное обучени...
63: ...льнее в обучении, чем PPO-based RLHF. - Дивергенция Кульбака–Лейблера (21 454 байта)
100: ...братной связи человека (RLHF)|RLHF]] (в частности, алгоритм PPO) ...
112: ...з обратной связи человека (RLHF)]] - Супервыравнивание (25 870 байт)
72: ...ременных методов является RLHF (Reinforcement Learning from Human Feedback). В ... - Прямая оптимизация предпочтений (18 568 байт)
3: ...а классическому конвейеру RLHF, в котором сначала обучает...
11: Классическая схема RLHF включает несколько шагов:
34: == Связь с RLHF ==
36: ...тесно связан с постановкой RLHF, в которой ищется стратеги...
38: ...лиза одной из классических RLHF-постановок и переводит его... - Обучение с подкреплением по рубрикам (16 577 байт)
17: ...андартный обходной путь — RLHF с preference data или reward model. Авто...
22: ...уточный вариант между RLVR и RLHF: reward строится из явных, чел...
123: В RLHF человек обычно сообщает, к... - Риски искусственного интеллекта (44 003 байта)
16: ...братной связью от человека|RLHF]] с явным акцентом на справ...
32: ...уждение информацию (через [[RLHF]] и конституционные правил...
46: ...дсказания]]; закрепление в [[RLHF]] требований честности и пр...
Просмотреть (предыдущие 20) (следующие 20) (20 | 50 | 100 | 250 | 500)

