Towards Safe Robot Foundation Models Using Inductive Biases

要約

安全性は、ロボットシステムの実際の展開の重要な要件です。
残念ながら、現在のロボット財団モデルは、さまざまなタスクにわたって有望な一般化機能を示していますが、長期運用を確保するための重要な側面である安全性に対処できません。
現在のロボット財団モデルは、デモンストレーションの十分に大きなデータセットから学習することにより、安全な行動が現れるべきであると想定しています。
ただし、このアプローチには2つの明確な大きな欠点があります。
第一に、監視された学習を使用して訓練された行動クローニングポリシーの正式な安全保証はありません。
第二に、安全上の制約に関する明示的な知識がなければ、ポリシーは、望ましい制約された動作を近似するために、不合理な数の追加デモを必要とする場合があります。
これらの重要な問題を解決するために、ATACOMを使用して、ロボット基礎モデルと幾何学誘導バイアスと組み合わせる方法を示します。これは、アクションの制約を実施することにより安全な状態遷移を保証する基礎ポリシーの後に配置された安全層です。
このアプローチにより、安全な行動の広範なデモンストレーションを提供することなく、安全のために特定の微調整を必要とせずに、ジェネラリスト政策の正式な安全保証を確保することができます。
私たちの実験は、私たちのアプローチは、無関係なオブジェクトとの望ましくない衝突を避ける古典的な操作タスクと、複雑なタスクや共同空間制約を尊重する高速軌道を生成できるロボットエアホッケー環境などの動的タスクの両方に有益であることを示しています。

要約(オリジナル)

Safety is a critical requirement for the real-world deployment of robotic systems. Unfortunately, while current robot foundation models show promising generalization capabilities across a wide variety of tasks, they fail to address safety, an important aspect for ensuring long-term operation. Current robot foundation models assume that safe behavior should emerge by learning from a sufficiently large dataset of demonstrations. However, this approach has two clear major drawbacks. Firstly, there are no formal safety guarantees for a behavior cloning policy trained using supervised learning. Secondly, without explicit knowledge of any safety constraints, the policy may require an unreasonable number of additional demonstrations to even approximate the desired constrained behavior. To solve these key issues, we show how we can instead combine robot foundation models with geometric inductive biases using ATACOM, a safety layer placed after the foundation policy that ensures safe state transitions by enforcing action constraints. With this approach, we can ensure formal safety guarantees for generalist policies without providing extensive demonstrations of safe behavior, and without requiring any specific fine-tuning for safety. Our experiments show that our approach can be beneficial both for classical manipulation tasks, where we avoid unwanted collisions with irrelevant objects, and for dynamic tasks, such as the robot air hockey environment, where we can generate fast trajectories respecting complex tasks and joint space constraints.

arxiv情報

著者 Maximilian Tölle,Theo Gruner,Daniel Palenicek,Tim Schneider,Jonas Günster,Joe Watson,Davide Tateo,Puze Liu,Jan Peters
発行日 2025-05-15 12:22:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク