要約
オフラインの安全な強化学習(RL)は、環境との危険なオンライン相互作用に従事することなく、安全な行動を学ぶための有望なアプローチとして浮上しています。
オフラインセーフRLのほとんどの既存の方法は、各タイムステップ(グローバルコストの制約から派生した)でコスト制約に依存しており、これにより、過度に保守的なポリシーまたは安全上の制約の違反のいずれかが生じる可能性があります。
この論文では、望ましい軌跡を生成し、望ましくない軌跡を回避するポリシーを学ぶことを提案します。
具体的には、最初に、状態行動軌跡の事前に収集されたデータセットを望ましい望ましくないサブセットに分割します。
直感的には、望ましいセットには高い報酬と安全な軌跡が含まれており、望ましくないセットには安全でない軌跡と低報酬の安全な軌跡が含まれています。
第二に、望ましい軌跡を生成し、望ましくない軌跡を回避するポリシーを学びます。ここでは、望ましい軌跡と望ましくない軌跡のデータセットから学習した分類器によって(UN)望ましいスコアが提供されます。
このアプローチは、既存の方法で採用されているMIN-MAX目標の計算の複雑さと安定性の問題をバイパッシングします。
理論的には、人間のフィードバックを含む既存の学習パラダイムに対するアプローチの強いつながりも示しています。
最後に、オフラインセーフRLのDSRLベンチマークを使用して、メソッドを広範囲に評価します。
経験的に、私たちの方法は競争力のあるベースラインよりも優れており、さまざまなベンチマークタスクにわたってより高い報酬とより良い制約満足度を達成します。
要約(オリジナル)
Offline safe reinforcement learning (RL) has emerged as a promising approach for learning safe behaviors without engaging in risky online interactions with the environment. Most existing methods in offline safe RL rely on cost constraints at each time step (derived from global cost constraints) and this can result in either overly conservative policies or violation of safety constraints. In this paper, we propose to learn a policy that generates desirable trajectories and avoids undesirable trajectories. To be specific, we first partition the pre-collected dataset of state-action trajectories into desirable and undesirable subsets. Intuitively, the desirable set contains high reward and safe trajectories, and undesirable set contains unsafe trajectories and low-reward safe trajectories. Second, we learn a policy that generates desirable trajectories and avoids undesirable trajectories, where (un)desirability scores are provided by a classifier learnt from the dataset of desirable and undesirable trajectories. This approach bypasses the computational complexity and stability issues of a min-max objective that is employed in existing methods. Theoretically, we also show our approach’s strong connections to existing learning paradigms involving human feedback. Finally, we extensively evaluate our method using the DSRL benchmark for offline safe RL. Empirically, our method outperforms competitive baselines, achieving higher rewards and better constraint satisfaction across a wide variety of benchmark tasks.
arxiv情報
著者 | Ze Gong,Akshat Kumar,Pradeep Varakantham |
発行日 | 2025-02-24 17:22:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google