要約
オフライン強化学習のパフォーマンスは、州の分布シフトの問題によって大きな影響を受けます。また、分散除外(OOD)状態修正は、この問題に対処するための一般的なアプローチです。
この論文では、OOD状態補正のための密度を認識した安全性認識(DASP)という名前の新しい方法を提案します。
具体的には、私たちの方法では、エージェントがデータ密度が高い結果につながるアクションに優先順位を付けることを奨励し、それによって分配内(安全)領域内での動作または復帰を促進します。
これを達成するために、意思決定の潜在的な結果とその密度の両方を同時に考慮して、安全な意思決定のための重要なコンテキスト情報を提供する変動フレームワーク内で目的を最適化します。
最後に、オフラインのMujocoおよびAntmaze Suitesでの広範な実験的評価を通じて、提案された方法の有効性と実現可能性を検証します。
要約(オリジナル)
The performance of Offline reinforcement learning is significantly impacted by the issue of state distributional shift, and out-of-distribution (OOD) state correction is a popular approach to address this problem. In this paper, we propose a novel method named Density-Aware Safety Perception (DASP) for OOD state correction. Specifically, our method encourages the agent to prioritize actions that lead to outcomes with higher data density, thereby promoting its operation within or the return to in-distribution (safe) regions. To achieve this, we optimize the objective within a variational framework that concurrently considers both the potential outcomes of decision-making and their density, thus providing crucial contextual information for safe decision-making. Finally, we validate the effectiveness and feasibility of our proposed method through extensive experimental evaluations on the offline MuJoCo and AntMaze suites.
arxiv情報
著者 | Ke Jiang,Wen Jiang,Xiaoyang Tan |
発行日 | 2025-05-01 13:14:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google