Beyond Non-Expert Demonstrations: Outcome-Driven Action Constraint for Offline Reinforcement Learning

要約

我々は、現実的なデータ、特に最適でない行動方針によって収集された非専門家データを用いたオフライン強化学習の課題に取り組む。この問題に取り組むために、我々はOutcome-Driven Action Flexibility (ODAF)と呼ばれる新しい手法を導入し、行動ポリシーの経験的行動分布への依存を低減することで、それらの悪いデモンストレーションの悪影響を低減することを目指す。具体的には、オフラインデータに基づく行動の尤度のみに依存するのではなく、その結果が安全要件を満たすかどうか、つまり状態サポート領域内に留まるかどうかに従って行動を評価することにより、分布シフトに対処する新しい保守的報酬メカニズムを開発する。理論的な正当性の他に、広く使用されているMuJoCoと様々な迷路ベンチマークに関する経験的な証拠を提供し、不確実性の定量化技術を用いて実装された我々のODAF法が、現実的な非専門的データから学習するエージェントの能力を向上させながら、「軌道のつなぎ目」を改善するために、未知の遷移を効果的に許容することを実証する。

要約(オリジナル)

We address the challenge of offline reinforcement learning using realistic data, specifically non-expert data collected through sub-optimal behavior policies. Under such circumstance, the learned policy must be safe enough to manage distribution shift while maintaining sufficient flexibility to deal with non-expert (bad) demonstrations from offline data.To tackle this issue, we introduce a novel method called Outcome-Driven Action Flexibility (ODAF), which seeks to reduce reliance on the empirical action distribution of the behavior policy, hence reducing the negative impact of those bad demonstrations.To be specific, a new conservative reward mechanism is developed to deal with distribution shift by evaluating actions according to whether their outcomes meet safety requirements – remaining within the state support area, rather than solely depending on the actions’ likelihood based on offline data.Besides theoretical justification, we provide empirical evidence on widely used MuJoCo and various maze benchmarks, demonstrating that our ODAF method, implemented using uncertainty quantification techniques, effectively tolerates unseen transitions for improved ‘trajectory stitching,’ while enhancing the agent’s ability to learn from realistic non-expert data.

arxiv情報

著者 Ke Jiang,Wen Jiang,Yao Li,Xiaoyang Tan
発行日 2025-04-03 01:40:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク