Результаты поиска

Материал из MachineLearning.

По запросу «Actor-critic»

Перейти к: навигация, поиск

Страницы с названием «Actor-critic» не существует.

Для получения более подробной информации о поиске на страницах проекта, см. справочный раздел.

Ниже показаны 16 результатов, начиная с № 1.

Просмотреть (предыдущие 20) (следующие 20) (20 | 50 | 100 | 250 | 500)

Нет совпадений в названиях статей

Совпадения в текстах статей

Глубинное обучение (курс лекций)/2017 (6378 байт)
63: ...nbsp;2017 || align="center"|10 || Policy based и actor-critic алгоритмы в обучении с под...
Глубинное обучение (курс лекций)/2019 (7469 байт)
103: | 25 Nov. 2019 || align="center"|12 || Actor-critic approach in RL || No ||
Обучение с подкреплением (курс лекций) / 2020 (10 952 байта)
118: | Policy gradient theorem. Advantage Actor-Critic (A2C).
125: ...://hackernoon.com/intuitive-rl-intro-to-advantage-actor-critic-a2c-4ff545978752 Комикс про A2C]
149: | Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC).
Обучение с подкреплением (курс лекций) / 2021 (11 837 байт)
143: | Policy gradient подход. Advantage Actor-Critic (A2C).
149: ...://hackernoon.com/intuitive-rl-intro-to-advantage-actor-critic-a2c-4ff545978752 Комикс про A2C]
181: * [https://arxiv.org/pdf/1801.01290.pdf Soft Actor-Critic (SAC)]
Обучение с подкреплением (курс лекций) / 2022 (13 327 байт)
179: | Policy gradient подход. Advantage Actor-Critic (A2C).
185: ...://hackernoon.com/intuitive-rl-intro-to-advantage-actor-critic-a2c-4ff545978752 Комикс про A2C]
228: * [https://arxiv.org/pdf/1801.01290.pdf Soft Actor-Critic (SAC)]
Обучение с подкреплением (курс лекций) / 2023 (12 238 байт)
158: | Policy gradient подход. Advantage Actor-Critic (A2C).
164: ...://hackernoon.com/intuitive-rl-intro-to-advantage-actor-critic-a2c-4ff545978752 Комикс про A2C]
200: * [https://arxiv.org/pdf/1801.01290.pdf Soft Actor-Critic (SAC)]
Обучение с подкреплением (курс лекций) / 2024 (13 893 байта)
187: | Policy gradient подход. Advantage Actor-Critic (A2C).
193: ...://hackernoon.com/intuitive-rl-intro-to-advantage-actor-critic-a2c-4ff545978752 Комикс про A2C]
222: * [https://arxiv.org/pdf/1801.01290.pdf Soft Actor-Critic (SAC)]
Методы обучения с подкреплением (16 087 байт)
61: === Методы Actor-critic ===
63: Методы [[Actor-critic]] объединяют два подхода. К...
116: * [[Actor-critic]]
Group Relative Policy Optimization (14 700 байт)
9: В классических actor-critic-методах, включая [[Proximal Policy ...
Обучение с подкреплением из обратной связи человека (RLHF) (21 403 байта)
Групповая относительная оптимизация политики (14 938 байт)
9: В классических actor-critic-методах, включая [[Проксима...
Актёр-критик (13 079 байт)
7: ...композицию<ref>Konda V., Tsitsiklis J. Actor-critic algorithms //Advances in neural information proce...
30: ...(Advantage Actor-Critic) и [[A3C]] (Asynchronous Actor-Critic).
65: ...р = Konda V., Tsitsiklis J. | заглавие = Actor-critic algorithms | издание = Advances in neural ...
Q-обучение (14 302 байта)
43: ...ного подхода и архитектура Actor-Critic ==
46: ...ции архитектуры на [[Actor-Critic|Actor-Critic]]. Вместо одной таблицы <tex>Q<...
Функции потерь в машинном обучении (20 488 байт)
162: ...е вознаграждения (policy gradient, actor-critic).
Дилемма заключённого (24 850 байт)
198: ...Abbeel O., Mordatch I. | часть = Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments | ...
Softmax-функция (13 613 байт)
68: ...ing''), таких как Policy Gradients или Actor-Critic, softmax параметризует стохас...

Просмотреть (предыдущие 20) (следующие 20) (20 | 50 | 100 | 250 | 500)

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:Search»

Результаты поиска

Материал из MachineLearning.

Нет совпадений в названиях статей

Совпадения в текстах статей

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты