Reinforcement Learning for Safety Testing: Lessons from A Mobile Robot Case Study

要約

安全性が重要なロボット システムには、人間を危険にさらす可能性のある設計上の欠陥やソフトウェアのバグを明らかにするための徹底的なテストが必要です。
シミュレーションでのテストは、開発プロセスの早い段階で適用でき、現実世界のオペレーターを危険にさらさないため、ますます人気が高まっています。
ただし、安全上重要な欠陥のすべてがシミュレーションですぐに観察できるわけではありません。
特定の危機的な条件下でのみ観測可能になるものもあります。
これらの条件が満たされていない場合、安全上の欠陥が検出されないままになる可能性があります。
したがって、重要なテストを作成することが重要です。
近年、この目的のために強化学習 (RL) を使用する傾向があります。
ドメイン固有の報酬関数に基づいて、RL アルゴリズムを使用して重要なテスト戦略を学習します。
この論文では、移動ロボットの衝突回避動作を RL ベースのテストで検証するケーススタディを紹介します。
この研究は、RL が効果的なテスト ツールとなり得ることを示す先行研究を裏付けています。
ただし、この研究では、RL ベースのテストに関連する特定の課題、すなわち、(i) テスト条件の多様性の欠如の可能性、および (ii) 報酬の不整合により RL エージェントが望ましくない方法で動作する報酬ハッキング現象も強調しています。
そしてテスト仕様書。
実験のデータと例を用いて課題を説明し、考えられる緩和戦略について説明します。

要約(オリジナル)

Safety-critical robot systems need thorough testing to expose design flaws and software bugs which could endanger humans. Testing in simulation is becoming increasingly popular, as it can be applied early in the development process and does not endanger any real-world operators. However, not all safety-critical flaws become immediately observable in simulation. Some may only become observable under certain critical conditions. If these conditions are not covered, safety flaws may remain undetected. Creating critical tests is therefore crucial. In recent years, there has been a trend towards using Reinforcement Learning (RL) for this purpose. Guided by domain-specific reward functions, RL algorithms are used to learn critical test strategies. This paper presents a case study in which the collision avoidance behavior of a mobile robot is subjected to RL-based testing. The study confirms prior research which shows that RL can be an effective testing tool. However, the study also highlights certain challenges associated with RL-based testing, namely (i) a possible lack of diversity in test conditions and (ii) the phenomenon of reward hacking where the RL agent behaves in undesired ways due to a misalignment of reward and test specification. The challenges are illustrated with data and examples from the experiments, and possible mitigation strategies are discussed.

arxiv情報

著者 Tom P. Huck,Martin Kaiser,Constantin Cronrath,Bengt Lennartson,Torsten Kröger,Tamim Asfour
発行日 2023-11-06 06:37:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク