A Batch, Off-Policy, Actor-Critic Algorithm for Optimizing the Average Reward

07/18/2016

∙

We develop an off-policy actor-critic algorithm for learning an optimal policy from a training set composed of data from multiple individuals. This algorithm is developed with a view towards its use in mobile health.

READ FULL TEXT

A Batch, Off-Policy, Actor-Critic Algorithm for Optimizing the Average Reward

Off-Policy Average Reward Actor-Critic with Deterministic Policy Search

DoMo-AC: Doubly Multi-step Off-policy Actor-Critic Algorithm

Robust Tests in Online Decision-Making

Actor-critic is implicitly biased towards high entropy optimal policies

Deep Intrinsically Motivated Continuous Actor-Critic for Efficient Robotic Visuomotor Skill Learning

Optimal Actor-Critic Policy with Optimized Training Datasets

Soft-Robust Actor-Critic Policy-Gradient

A Batch, Off-Policy, Actor-Critic Algorithm for Optimizing the Average Reward

Related Research

Off-Policy Average Reward Actor-Critic with Deterministic Policy Search

DoMo-AC: Doubly Multi-step Off-policy Actor-Critic Algorithm

Robust Tests in Online Decision-Making

Actor-critic is implicitly biased towards high entropy optimal policies

Deep Intrinsically Motivated Continuous Actor-Critic for Efficient Robotic Visuomotor Skill Learning

Optimal Actor-Critic Policy with Optimized Training Datasets

Soft-Robust Actor-Critic Policy-Gradient