Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

要約

オープンセット障害の自動検出と防止は、閉ループロボットシステムにおいて非常に重要です。
最近の研究では、予期せぬ障害が発生した後にそれを事後的に特定することと、予見可能な障害を積極的に防ぐことを同時に行うのに苦労することがよくあります。
この目的を達成するために、オープンセットの事後的障害検出と予防的障害検出の両方にビジョン言語モデル (VLM) を活用する新しいパラダイムである Code-as-Monitor (CaM) を提案します。
私たちの方法の核心は、両方のタスクを時空間制約充足問題の統合されたセットとして定式化し、VLM で生成されたコードを使用してそれらをリアルタイム監視用に評価することです。
モニタリングの精度と効率を高めるために、制約に関連するエンティティまたはその部品をコンパクトな幾何学的要素に抽象化する制約要素をさらに導入します。
このアプローチにより、汎用性が高まり、追跡が簡素化され、これらの要素を視覚的なプロンプトとして活用することで、制約を意識したビジュアル プログラミングが容易になります。
実験の結果、CaM は 3 つのシミュレータと現実世界の設定におけるベースラインと比較して、激しい外乱下で 28.7% 高い成功率を達成し、実行時間を 31.8% 短縮することが示されています。
さらに、CaM は開ループ制御ポリシーと統合して閉ループ システムを形成することができ、動的な環境の乱雑なシーンで長期的なタスクを可能にします。

要約(オリジナル)

Automatic detection and prevention of open-set failures are crucial in closed-loop robotic systems. Recent studies often struggle to simultaneously identify unexpected failures reactively after they occur and prevent foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a novel paradigm leveraging the vision-language model (VLM) for both open-set reactive and proactive failure detection. The core of our method is to formulate both tasks as a unified set of spatio-temporal constraint satisfaction problems and use VLM-generated code to evaluate them for real-time monitoring. To enhance the accuracy and efficiency of monitoring, we further introduce constraint elements that abstract constraint-related entities or their parts into compact geometric elements. This approach offers greater generality, simplifies tracking, and facilitates constraint-aware visual programming by leveraging these elements as visual prompts. Experiments show that CaM achieves a 28.7% higher success rate and reduces execution time by 31.8% under severe disturbances compared to baselines across three simulators and a real-world setting. Moreover, CaM can be integrated with open-loop control policies to form closed-loop systems, enabling long-horizon tasks in cluttered scenes with dynamic environments.

arxiv情報

著者 Enshen Zhou,Qi Su,Cheng Chi,Zhizheng Zhang,Zhongyuan Wang,Tiejun Huang,Lu Sheng,He Wang
発行日 2024-12-09 16:07:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク