Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

要約

閉ループロボットシステムでは、オープンセット障害の自動検出と防止が重要です。
最近の研究は、発生した後に予期しない障害を反応的に特定し、予測可能な障害を積極的に防ぐために同時に苦労していることがよくあります。
この目的のために、オープンセットの反応性およびプロアクティブな故障検出の両方について、ビジョン言語モデル(VLM)を活用する新しいパラダイムであるコードAs-Monitor(CAM)を提案します。
私たちの方法の中核は、両方のタスクを統一された空間的制約満足度の問題の統一セットとして策定し、VLMで生成されたコードを使用してリアルタイムの監視を評価することです。
監視の精度と効率を高めるために、抽象的な制約関連のエンティティまたはその部分をコンパクトな幾何学的要素に抽象化する制約要素をさらに導入します。
このアプローチは、一般性を高め、追跡を簡素化し、これらの要素を視覚プロンプトとして活用することにより、制約対応の視覚プログラミングを促進します。
実験では、CAMが28.7%の成功率を達成し、3つのシミュレータのベースラインと現実世界の設定に比べて、重度の妨害で実行時間を31.8%短縮することが示されています。
さらに、CAMをオープンループ制御ポリシーと統合して閉ループシステムを形成し、ダイナミック環境を備えた散らかったシーンで長距離タスクを可能にします。

要約(オリジナル)

Automatic detection and prevention of open-set failures are crucial in closed-loop robotic systems. Recent studies often struggle to simultaneously identify unexpected failures reactively after they occur and prevent foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a novel paradigm leveraging the vision-language model (VLM) for both open-set reactive and proactive failure detection. The core of our method is to formulate both tasks as a unified set of spatio-temporal constraint satisfaction problems and use VLM-generated code to evaluate them for real-time monitoring. To enhance the accuracy and efficiency of monitoring, we further introduce constraint elements that abstract constraint-related entities or their parts into compact geometric elements. This approach offers greater generality, simplifies tracking, and facilitates constraint-aware visual programming by leveraging these elements as visual prompts. Experiments show that CaM achieves a 28.7% higher success rate and reduces execution time by 31.8% under severe disturbances compared to baselines across three simulators and a real-world setting. Moreover, CaM can be integrated with open-loop control policies to form closed-loop systems, enabling long-horizon tasks in cluttered scenes with dynamic environments.

arxiv情報

著者 Enshen Zhou,Qi Su,Cheng Chi,Zhizheng Zhang,Zhongyuan Wang,Tiejun Huang,Lu Sheng,He Wang
発行日 2025-03-21 14:54:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク