DRL Course 2023 | Лекция 6. Policy Algorithms

Курс Deep Reinforcement Learning 2023: Сезон курсов : В шестой лекции: Рассматриваются MDP с бесконечным пространством действий Обсуждается Policy Gradient теоремы Выводятся алгоритмы Reinforce, A2C и PPO Автор курса: Антон Плаксин, исследователь в группе и доцент Уральского федерального университета. Наши соц.сети: Telegram: Вконтакте: Канал с вакансиями в telegram: Канал с апдейтами по курсам: Как попасть в чат сообщества ODS Mattermost: