Результаты поиска

Материал из MachineLearning.

По запросу «RLHF»

Перейти к: навигация, поиск

Страницы с названием «RLHF» не существует.

Для получения более подробной информации о поиске на страницах проекта, см. справочный раздел.

Ниже показаны 12 результатов, начиная с № 1.


Просмотреть (предыдущие 20) (следующие 20) (20 | 50 | 100 | 250 | 500)

Нет совпадений в названиях статей

Совпадения в текстах статей

  1. Философия. Введение в ИИ (курс лекций, К.В.Воронцов)/Задание 1/Выполнение (17 896 байт)
    235: ...з обратной связи человека (RLHF)]]
  2. Direct Preference Optimization (18 459 байт)
    3: ...а классическому конвейеру RLHF, в котором сначала обучает...
    11: Классическая схема RLHF включает несколько шагов:
    34: == Связь с RLHF ==
    36: ...тесно связан с постановкой RLHF, в которой ищется стратеги...
    38: ...лиза одной из классических RLHF-постановок и переводит его...
  3. Большая языковая модель (9785 байт)
    39: ...из обратной связи человека|RLHF]]), включающее:
  4. Промпт-инжиниринг (11 710 байт)
    94: ...братной связи человека (RLHF)|RLHF-дообучение]] дополняют дру...
    118: ...з обратной связи человека (RLHF)]]
  5. RubricRL (16 387 байт)
    17: ...андартный обходной путь — RLHF с preference data или reward model. Авто...
    22: ...уточный вариант между RLVR и RLHF: reward строится из явных, чел...
    123: В RLHF человек обычно сообщает, к...
  6. Нейросетевое встраивание (8233 байта)
    82: ...братной связи человека (RLHF)|RLHF]] — reward model использует эмбе...
    90: ...з обратной связи человека (RLHF)]]
  7. Обучение с подкреплением из обратной связи человека (RLHF) (9339 байт)
    5: ...е заданной функции потерь. RLHF позволяет согласовать пов...
    9: ...ель, настроенная с помощью RLHF, может значительно превосх...
    13: Стандартный пайплайн RLHF включает три этапа:
    59: ...failov et al., 2023) — альтернатива RLHF, исключающая явное обучени...
    63: ...льнее в обучении, чем PPO-based RLHF.
  8. Дивергенция Кульбака–Лейблера (21 454 байта)
    100: ...братной связи человека (RLHF)|RLHF]] (в частности, алгоритм PPO) ...
    112: ...з обратной связи человека (RLHF)]]
  9. Супервыравнивание (25 870 байт)
    72: ...ременных методов является RLHF (Reinforcement Learning from Human Feedback). В ...
  10. Прямая оптимизация предпочтений (18 568 байт)
    3: ...а классическому конвейеру RLHF, в котором сначала обучает...
    11: Классическая схема RLHF включает несколько шагов:
    34: == Связь с RLHF ==
    36: ...тесно связан с постановкой RLHF, в которой ищется стратеги...
    38: ...лиза одной из классических RLHF-постановок и переводит его...
  11. Обучение с подкреплением по рубрикам (16 577 байт)
    17: ...андартный обходной путь — RLHF с preference data или reward model. Авто...
    22: ...уточный вариант между RLVR и RLHF: reward строится из явных, чел...
    123: В RLHF человек обычно сообщает, к...
  12. Риски искусственного интеллекта (44 003 байта)
    16: ...братной связью от человека|RLHF]] с явным акцентом на справ...
    32: ...уждение информацию (через [[RLHF]] и конституционные правил...
    46: ...дсказания]]; закрепление в [[RLHF]] требований честности и пр...

Просмотреть (предыдущие 20) (следующие 20) (20 | 50 | 100 | 250 | 500)



Искать в пространствах имён:

Показывать перенаправления
Искать