Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion Model

要約

安全なオフライン RL は、危険なオンライン対話を回避して安全なポリシー学習を実現する有望な方法です。
既存の方法のほとんどは、ソフト制約、つまり、事前に設定されたしきい値未満の予想における安全違反を制限するだけです。
これは潜在的に安全でない結果につながる可能性があるため、安全性が重要なシナリオでは受け入れられません。
別の方法は、違反ゼロというハード制約を強制することです。
ただし、オフライン設定では、安全制約の充足、報酬の最大化、オフライン データセットによって課せられる行動の正規化という 3 つの非常に複雑で相関関係のある側面の間で適切なバランスを取る必要があるため、これは困難になる可能性があります。
興味深いことに、安全制御理論の到達可能性分析を通じて、ハード安全制約は、オフライン データセットが与えられた最大の実現可能な領域を特定することに等価に変換できることがわかりました。
これにより、元の 3 部作の問題が、実現可能性に依存した目標、つまり、実現可能な領域内で報酬価値を最大化しながら、実行不可能な領域での安全リスクを最小限に抑えるという目標にシームレスに変換されます。
これらからインスピレーションを得て、当社は FISOR (FeasIbility-guided Safe Offline RL) を提案します。これにより、強力な安全性能と安定性を提供しながら、安全制約の順守、報酬の最大化、オフライン ポリシーの学習を 3 つの分離されたプロセスを通じて実現できます。
FISOR では、変換された最適化問題に対する最適なポリシーを、重み付けされた動作の複製の特別な形式で導き出すことができます。
したがって、ポリシーを抽出するために複雑な時間依存分類器をトレーニングする必要がなく、トレーニングが大幅に簡素化される、新しいエネルギー誘導拡散モデルを提案します。
安全なオフライン RL について、FISOR を DSRL ベンチマークのベースラインと比較します。
評価の結果、FISOR は、ほとんどのタスクで最高の収益を達成しながら、すべてのタスクで安全性の満足を保証できる唯一の方法であることが示されています。

要約(オリジナル)

Safe offline RL is a promising way to bypass risky online interactions towards safe policy learning. Most existing methods only enforce soft constraints, i.e., constraining safety violations in expectation below thresholds predetermined. This can lead to potentially unsafe outcomes, thus unacceptable in safety-critical scenarios. An alternative is to enforce the hard constraint of zero violation. However, this can be challenging in offline setting, as it needs to strike the right balance among three highly intricate and correlated aspects: safety constraint satisfaction, reward maximization, and behavior regularization imposed by offline datasets. Interestingly, we discover that via reachability analysis of safe-control theory, the hard safety constraint can be equivalently translated to identifying the largest feasible region given the offline dataset. This seamlessly converts the original trilogy problem to a feasibility-dependent objective, i.e., maximizing reward value within the feasible region while minimizing safety risks in the infeasible region. Inspired by these, we propose FISOR (FeasIbility-guided Safe Offline RL), which allows safety constraint adherence, reward maximization, and offline policy learning to be realized via three decoupled processes, while offering strong safety performance and stability. In FISOR, the optimal policy for the translated optimization problem can be derived in a special form of weighted behavior cloning. Thus, we propose a novel energy-guided diffusion model that does not require training a complicated time-dependent classifier to extract the policy, greatly simplifying the training. We compare FISOR against baselines on DSRL benchmark for safe offline RL. Evaluation results show that FISOR is the only method that can guarantee safety satisfaction in all tasks, while achieving top returns in most tasks.

arxiv情報

著者 Yinan Zheng,Jianxiong Li,Dongjie Yu,Yujie Yang,Shengbo Eben Li,Xianyuan Zhan,Jingjing Liu
発行日 2024-01-19 14:05:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク