StudyPreprintWikiReinforcement LearningModerate

Trust Region Policy Optimization

Authors: John Schulman, Sergey Levine, Philipp Moritz, Michael I. Jordan, Pieter Abbeel
Year: 2015

Trust Region Policy Optimization | Steady Practice | SteadyPractice