A Unified Framework for Real-Time Failure Handling in Robotics Using Vision-Language Models, Reactive Planner and Behavior Trees

要約

ロボットシステムは、予期しない障害、センサーエラー、または環境の変化により、しばしば実行障害に直面しています。
従来の故障回復方法は、事前定義された戦略や人間の介入に依存しており、それらをより順応性を低下させます。
このペーパーでは、リアルタイムの障害処理を可能にするために、Vision-Language Models(VLMS)、リアクティブプランナー、および動作ツリー(BTS)を組み合わせた統一された障害回復フレームワークを紹介します。
私たちのアプローチには、実行前の潜在的な障害をチェックする解実行前の検証、および既存のBT条件を検証し、前提条件の欠落を追加し、必要に応じて新しいスキルを生成することにより、実行中の障害を検出および修正する反応性障害処理が含まれます。
このフレームワークは、構造化された環境認識のためのシーングラフと、継続的な監視のために実行履歴を使用し、コンテキスト対応および適応障害処理を可能にします。
AI2-THORシミュレーターだけでなく、PEG挿入、オブジェクトソート、引き出しの配置などのタスクに関するABBユミロボットを使用した実際の実験を通じて、フレームワークを評価します。
事前解釈と反応的方法を個別に使用することと比較して、私たちのアプローチは、より高いタスクの成功率とより大きな適応性を達成します。
アブレーション研究は、VLMベースの推論、構造化されたシーン表現、およびロボット工学の効果的な障害回復のための実行履歴追跡の重要性を強調しています。

要約(オリジナル)

Robotic systems often face execution failures due to unexpected obstacles, sensor errors, or environmental changes. Traditional failure recovery methods rely on predefined strategies or human intervention, making them less adaptable. This paper presents a unified failure recovery framework that combines Vision-Language Models (VLMs), a reactive planner, and Behavior Trees (BTs) to enable real-time failure handling. Our approach includes pre-execution verification, which checks for potential failures before execution, and reactive failure handling, which detects and corrects failures during execution by verifying existing BT conditions, adding missing preconditions and, when necessary, generating new skills. The framework uses a scene graph for structured environmental perception and an execution history for continuous monitoring, enabling context-aware and adaptive failure handling. We evaluate our framework through real-world experiments with an ABB YuMi robot on tasks like peg insertion, object sorting, and drawer placement, as well as in AI2-THOR simulator. Compared to using pre-execution and reactive methods separately, our approach achieves higher task success rates and greater adaptability. Ablation studies highlight the importance of VLM-based reasoning, structured scene representation, and execution history tracking for effective failure recovery in robotics.

arxiv情報

著者 Faseeh Ahmad,Hashim Ismail,Jonathan Styrud,Maj Stenmark,Volker Krueger
発行日 2025-03-21 08:10:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク