要約
ロバスト制約付きマルコフ決定プロセス (RCMDP) は、行動制約を組み込み、不確実性セットの使用を通じて遷移ダイナミクス モデルのエラーに対するロバスト性を提供する、強化学習のための最近のタスク モデリング フレームワークです。
RCMDP をシミュレートするには、各状態の値推定に基づいて最悪ケースのダイナミクスを計算する必要があります。これは、以前にロバスト制約ポリシー勾配 (RCPG) で使用されていたアプローチです。
この論文では、完全な制約付き目標をロバスト化していないことや増分学習の欠如など、RCPG の潜在的な欠点を強調し、ロバスト ラグランジアンと敵対的 RCPG を備えた RCPG と呼ばれる 2 つのアルゴリズムを紹介します。
ロバスト ラグランジュアンを使用した RCPG は、値や制約ではなくラグランジュに基づいて最悪の場合のダイナミクスを取得することによって RCPG を変更します。
敵対的 RCPG は、ラグランジュに基づいて最悪の場合のダイナミクスも定式化しますが、ソートされた値リストでの制約付き最適化を通じて間接的かつ突然ではなく、勾配降下を通じて敵対的ポリシーとして直接的かつ段階的に学習します。
理論分析では、最初に両方の提案されたアルゴリズムのポリシー最適化のためのラグランジュ ポリシー勾配を導出し、次に敵対的 RCPG の敵対者を学習するための敵対的ポリシー勾配を導出します。
在庫管理および安全航行タスクに摂動を導入する実証実験では、従来の RCPG バリアントおよび非ロバストかつ非制約のアブレーションと比較して、両方のアルゴリズムの競争力のあるパフォーマンスが実証されています。
特に、Adversarial RCPG は、すべてのテストでパフォーマンスの高いアルゴリズムの上位 2 つにランクされています。
要約(オリジナル)
The robust constrained Markov decision process (RCMDP) is a recent task-modelling framework for reinforcement learning that incorporates behavioural constraints and that provides robustness to errors in the transition dynamics model through the use of an uncertainty set. Simulating RCMDPs requires computing the worst-case dynamics based on value estimates for each state, an approach which has previously been used in the Robust Constrained Policy Gradient (RCPG). Highlighting potential downsides of RCPG such as not robustifying the full constrained objective and the lack of incremental learning, this paper introduces two algorithms, called RCPG with Robust Lagrangian and Adversarial RCPG. RCPG with Robust Lagrangian modifies RCPG by taking the worst-case dynamics based on the Lagrangian rather than either the value or the constraint. Adversarial RCPG also formulates the worst-case dynamics based on the Lagrangian but learns this directly and incrementally as an adversarial policy through gradient descent rather than indirectly and abruptly through constrained optimisation on a sorted value list. A theoretical analysis first derives the Lagrangian policy gradient for the policy optimisation of both proposed algorithms and then the adversarial policy gradient to learn the adversary for Adversarial RCPG. Empirical experiments injecting perturbations in inventory management and safe navigation tasks demonstrate the competitive performance of both algorithms compared to traditional RCPG variants as well as non-robust and non-constrained ablations. In particular, Adversarial RCPG ranks among the top two performing algorithms on all tests.
arxiv情報
著者 | David M. Bossens |
発行日 | 2024-05-15 14:46:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google