要約
学習ベースのコントローラーは、多くの場合、安全性と信頼性に関する懸念のため、意図的に実際のアプリケーションから守られています。
モデルベースの強化学習における最先端の世界モデルを、トレーニングフェーズを超えて利用して、展開されたポリシーが十分に慣れ親しんでいる状態空間の地域内でのみ動作するようにする方法を探ります。
これは、世界モデルの予測と推論中に観察されたシステムの挙動との間の矛盾を継続的に監視することによって達成されます。
エラーのしきい値が上がると、緊急停止などの適切な測定をトリガーできます。
これには、タスク固有の知識は必要ありません。したがって、普遍的に適用可能です。
確立されたロボット制御タスクに関するシミュレートされた実験は、この方法の有効性を示し、ローカルロボットのジオメトリとグローバルな重力の大きさの変化を認識しています。
アジャイルクワッドコプターを使用した実際の実験は、車両に作用する予期しない力を検出することにより、このアプローチの利点をさらに示しています。
これらの結果は、新規および不利な条件でさえ、そうでなければ予測不可能な学習ベースのコントローラーの安全で信頼できる操作を達成する方法を示しています。
要約(オリジナル)
Learning-based controllers are often purposefully kept out of real-world applications due to concerns about their safety and reliability. We explore how state-of-the-art world models in Model-Based Reinforcement Learning can be utilized beyond the training phase to ensure a deployed policy only operates within regions of the state-space it is sufficiently familiar with. This is achieved by continuously monitoring discrepancies between a world model’s predictions and observed system behavior during inference. It allows for triggering appropriate measures, such as an emergency stop, once an error threshold is surpassed. This does not require any task-specific knowledge and is thus universally applicable. Simulated experiments on established robot control tasks show the effectiveness of this method, recognizing changes in local robot geometry and global gravitational magnitude. Real-world experiments using an agile quadcopter further demonstrate the benefits of this approach by detecting unexpected forces acting on the vehicle. These results indicate how even in new and adverse conditions, safe and reliable operation of otherwise unpredictable learning-based controllers can be achieved.
arxiv情報
著者 | Fabian Domberg,Georg Schildbach |
発行日 | 2025-03-04 12:25:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google