要約
アクタークリティック (AC) 手法は強化学習 (RL) で広く使用されており、任意のポリシー勾配法をアクターとして使用し、値ベースの手法をクリティカルとして使用できる柔軟性の恩恵を受けます。
批評家は通常、TD エラーを最小限に抑えることによってトレーニングされますが、この目標は、俳優との高い報酬を達成するという真の目標とは無関係である可能性があります。
私たちは、俳優と批評家を意思決定を意識した方法で訓練するための共同目標を設計することで、この不一致に対処します。
提案された目的を使用して、あらゆる関数近似を簡単に処理できる汎用の AC アルゴリズムを設計します。
政策の選択や批評家のパラメータ化に関係なく、結果として得られるアルゴリズムが単調な政策改善を保証する条件を明示的に特徴付けます。
汎用アルゴリズムをインスタンス化すると、一連の代理関数 (TRPO、PPO と同様) の最大化を伴うアクターと、密接に関連する目的の最小化を伴うクリティカルが生成されます。
単純なバンディットの例を使用して、標準二乗誤差に対する提案された批判目的の利点を証明します。
最後に、単純な RL 問題に対する意思決定を意識したアクター批判フレームワークの利点を経験的に示します。
要約(オリジナル)
Actor-critic (AC) methods are widely used in reinforcement learning (RL) and benefit from the flexibility of using any policy gradient method as the actor and value-based method as the critic. The critic is usually trained by minimizing the TD error, an objective that is potentially decorrelated with the true goal of achieving a high reward with the actor. We address this mismatch by designing a joint objective for training the actor and critic in a decision-aware fashion. We use the proposed objective to design a generic, AC algorithm that can easily handle any function approximation. We explicitly characterize the conditions under which the resulting algorithm guarantees monotonic policy improvement, regardless of the choice of the policy and critic parameterization. Instantiating the generic algorithm results in an actor that involves maximizing a sequence of surrogate functions (similar to TRPO, PPO) and a critic that involves minimizing a closely connected objective. Using simple bandit examples, we provably establish the benefit of the proposed critic objective over the standard squared error. Finally, we empirically demonstrate the benefit of our decision-aware actor-critic framework on simple RL problems.
arxiv情報
著者 | Sharan Vaswani,Amirreza Kazemi,Reza Babanezhad,Nicolas Le Roux |
発行日 | 2023-05-24 15:34:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google