要約
制約付き強化学習の一般的な定式化には、特定のしきい値まで個別に蓄積する必要がある複数の報酬が含まれます。
このクラスの問題では、報酬の重み付けされた線形結合によっては、望ましい最適なポリシーを誘導できないという単純な例を示します。
したがって、正則化された方法でも古典的な主双対方法でも最適なポリシーが得られない、制約付き強化学習問題が存在します。
この研究では、ラグランジュ乗数を使用して状態を拡張し、乗数の進化を駆動するダイナミクスの一部として主双対法を再解釈することで、この欠点に対処しています。
このアプローチは、制約のある強化学習問題を解決することが保証される体系的な状態拡張手順を提供します。
したがって、例で説明するように、以前の方法では最適なポリシーを見つけることができない可能性がありますが、拡張されたポリシーの実行中にデュアル ダイナミクスを実行すると、最適なポリシーからアクションを確実にサンプリングするアルゴリズムが生成されます。
要約(オリジナル)
A common formulation of constrained reinforcement learning involves multiple rewards that must individually accumulate to given thresholds. In this class of problems, we show a simple example in which the desired optimal policy cannot be induced by any weighted linear combination of rewards. Hence, there exist constrained reinforcement learning problems for which neither regularized nor classical primal-dual methods yield optimal policies. This work addresses this shortcoming by augmenting the state with Lagrange multipliers and reinterpreting primal-dual methods as the portion of the dynamics that drives the multipliers evolution. This approach provides a systematic state augmentation procedure that is guaranteed to solve reinforcement learning problems with constraints. Thus, as we illustrate by an example, while previous methods can fail at finding optimal policies, running the dual dynamics while executing the augmented policy yields an algorithm that provably samples actions from the optimal policy.
arxiv情報
著者 | Miguel Calvo-Fullana,Santiago Paternain,Luiz F. O. Chamon,Alejandro Ribeiro |
発行日 | 2023-09-21 14:36:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google