Safe Deep Reinforcement Learning by Verifying Task-Level Properties

要約

コスト関数は、Safe Deep Reinforcement Learning (DRL) で一般的に使用されます。
ただし、状態空間でのポリシー決定のリスクを定量化することは難しいため、通常、コストはインジケーター関数としてエンコードされます。
このようなエンコーディングでは、エージェントが多数の安全でない状態を訪れてコスト値関数を学習し、学習プロセスを安全に向ける必要があります。
したがって、安全でない相互作用の数が増え、サンプル効率が低下します。
このホワイト ペーパーでは、ドメイン知識を使用して、違反メトリックを定義することにより、そのような状態に近接するリスクを定量化する代替アプローチを調査します。
このメトリックは、タスク レベルのプロパティを検証することによって計算され、入出力条件として形作られます。これは、追加の値関数を学習せずにポリシーを安全でない状態から遠ざけるためのペナルティとして使用されます。
標準の Safe DRL ベンチマークとロボットによるマップレス ナビゲーション タスクで違反メトリックを使用する利点を調査します。
ナビゲーション実験は、Safe DRL とロボット工学の間のギャップを埋め、実際のロボットでの迅速なテストを可能にするフレームワークを導入します。
私たちの実験では、違反ペナルティでトレーニングされたポリシーは、安全な DRL ベースラインよりも高いパフォーマンスを達成し、訪れた危険な状態の数を大幅に削減することが示されています。

要約(オリジナル)

Cost functions are commonly employed in Safe Deep Reinforcement Learning (DRL). However, the cost is typically encoded as an indicator function due to the difficulty of quantifying the risk of policy decisions in the state space. Such an encoding requires the agent to visit numerous unsafe states to learn a cost-value function to drive the learning process toward safety. Hence, increasing the number of unsafe interactions and decreasing sample efficiency. In this paper, we investigate an alternative approach that uses domain knowledge to quantify the risk in the proximity of such states by defining a violation metric. This metric is computed by verifying task-level properties, shaped as input-output conditions, and it is used as a penalty to bias the policy away from unsafe states without learning an additional value function. We investigate the benefits of using the violation metric in standard Safe DRL benchmarks and robotic mapless navigation tasks. The navigation experiments bridge the gap between Safe DRL and robotics, introducing a framework that allows rapid testing on real robots. Our experiments show that policies trained with the violation penalty achieve higher performance over Safe DRL baselines and significantly reduce the number of visited unsafe states.

arxiv情報

著者 Enrico Marchesini,Luca Marzari,Alessandro Farinelli,Christopher Amato
発行日 2023-02-20 15:24:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク