Approximate Shielding of Atari Agents for Safe Exploration

要約

【タイトル】Atariエージェントの安全性保証に向けたアプローチ

【要約】
– 制約のもとでの探索と保守性のバランスは、現実世界で意義のあるタスクのために強化学習を使用する場合に重要な問題である。
– 本論文では、シールディングのコンセプトに基づいた安全な探索のための原理的なアルゴリズムを提案している。
– 以前のシールディングへのアプローチは、環境の安全関連の抽象化や高精度シミュレータへのアクセスを前提としている。
– 代わりに、我々のアプローチはlatent shieldingに基づいており、学習したダイナミクスモデルの潜在空間で方針のロールアウトを検証する。
– 新しいアルゴリズムは、安全評価者やその他の付加機能を使用して、アルゴリズムの安定性と先見性を向上させる。
– ステート依存性の安全ラベルを持つAtariゲームの小さなセットで実験を行い、アルゴリズムを評価した結果、近似シールディングアルゴリズムは、安全違反の発生率を効果的に減少させ、収束速度とエージェントの最終品質を改善することが示唆された。

要約(オリジナル)

Balancing exploration and conservatism in the constrained setting is an important problem if we are to use reinforcement learning for meaningful tasks in the real world. In this paper, we propose a principled algorithm for safe exploration based on the concept of shielding. Previous approaches to shielding assume access to a safety-relevant abstraction of the environment or a high-fidelity simulator. Instead, our work is based on latent shielding – another approach that leverages world models to verify policy roll-outs in the latent space of a learned dynamics model. Our novel algorithm builds on this previous work, using safety critics and other additional features to improve the stability and farsightedness of the algorithm. We demonstrate the effectiveness of our approach by running experiments on a small set of Atari games with state dependent safety labels. We present preliminary results that show our approximate shielding algorithm effectively reduces the rate of safety violations, and in some cases improves the speed of convergence and quality of the final agent.

arxiv情報

著者 Alexander W. Goodall,Francesco Belardinelli
発行日 2023-04-21 16:19:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI パーマリンク