Online Safety Property Collection and Refinement for Safe Deep Reinforcement Learning in Mapless Navigation

要約

実世界のシナリオで深層強化学習 (DRL) アルゴリズムを展開するには、安全性が不可欠です。
最近、プロパティーと呼ばれる入出力関係に対する DRL ポリシー違反の数を定量化できる検証アプローチが提案されました。
ただし、このようなプロパティはハードコーディングされており、タスク レベルの知識が必要なため、困難な安全性が重要なタスクではアプリケーションが扱いにくいものになっています。
この目的のために、トレーニング時にプロパティを設計するために、オンライン プロパティの収集と改良 (CROP) フレームワークを導入します。
CROP はコスト信号を使用して安全でない相互作用を識別し、それらを使用して安全特性を形作ります。
したがって、同様の危険な相互作用をモデル化するプロパティを組み合わせる改良戦略を提案します。
私たちの評価では、標準のハードコードされたプロパティと CROP で生成されたプロパティを使用して違反の数を計算する利点を比較します。
いくつかのロボット マップレス ナビゲーション タスクでアプローチを評価し、CROP で計算された違反メトリックが、以前の Safe DRL アプローチよりも高いリターンと低い違反を可能にすることを示します。

要約(オリジナル)

Safety is essential for deploying Deep Reinforcement Learning (DRL) algorithms in real-world scenarios. Recently, verification approaches have been proposed to allow quantifying the number of violations of a DRL policy over input-output relationships, called properties. However, such properties are hard-coded and require task-level knowledge, making their application intractable in challenging safety-critical tasks. To this end, we introduce the Collection and Refinement of Online Properties (CROP) framework to design properties at training time. CROP employs a cost signal to identify unsafe interactions and use them to shape safety properties. Hence, we propose a refinement strategy to combine properties that model similar unsafe interactions. Our evaluation compares the benefits of computing the number of violations using standard hard-coded properties and the ones generated with CROP. We evaluate our approach in several robotic mapless navigation tasks and demonstrate that the violation metric computed with CROP allows higher returns and lower violations over previous Safe DRL approaches.

arxiv情報

著者 Luca Marzari,Enrico Marchesini,Alessandro Farinelli
発行日 2023-02-13 21:19:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク