Decision-Aware Actor-Critic with Function Approximation and Theoretical Guarantees


アクタークリティック (AC) 手法は強化学習 (RL) で広く使用されており、任意のポリシー勾配法をアクターとして使用し、値ベースの手法をクリティカルとして使用できる柔軟性の恩恵を受けます。
批評家は通常、TD エラーを最小限に抑えることによってトレーニングされますが、この目標は、俳優との高い報酬を達成するという真の目標とは無関係である可能性があります。
提案された目的を使用して、あらゆる関数近似を簡単に処理できる汎用の AC アルゴリズムを設計します。
汎用アルゴリズムをインスタンス化すると、一連の代理関数 (TRPO、PPO と同様) の最大化を伴うアクターと、密接に関連する目的の最小化を伴うクリティカルが生成されます。
最後に、単純な RL 問題に対する意思決定を意識したアクター批判フレームワークの利点を経験的に示します。


Actor-critic (AC) methods are widely used in reinforcement learning (RL) and benefit from the flexibility of using any policy gradient method as the actor and value-based method as the critic. The critic is usually trained by minimizing the TD error, an objective that is potentially decorrelated with the true goal of achieving a high reward with the actor. We address this mismatch by designing a joint objective for training the actor and critic in a decision-aware fashion. We use the proposed objective to design a generic, AC algorithm that can easily handle any function approximation. We explicitly characterize the conditions under which the resulting algorithm guarantees monotonic policy improvement, regardless of the choice of the policy and critic parameterization. Instantiating the generic algorithm results in an actor that involves maximizing a sequence of surrogate functions (similar to TRPO, PPO) and a critic that involves minimizing a closely connected objective. Using simple bandit examples, we provably establish the benefit of the proposed critic objective over the standard squared error. Finally, we empirically demonstrate the benefit of our decision-aware actor-critic framework on simple RL problems.


著者 Sharan Vaswani,Amirreza Kazemi,Reza Babanezhad,Nicolas Le Roux
発行日 2023-05-24 15:34:21+00:00
カテゴリー: cs.AI, cs.LG, math.OC パーマリンク