StudyPreprintWikiReinforcement LearningModerate

Second-Order Actor-Critic Methods for Discounted MDPs via Policy Hessian Decomposition

Second-Order Actor-Critic Methods for Discounted MDPs via Policy Hessian Decomposition | Steady Practice | SteadyPractice