Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress

要約

模倣学習によってトレーニングされたロボットの行動ポリシーは、トレーニング データから逸脱した条件下では失敗する傾向があります。
したがって、スケーラブルな展開を促進するには、テスト時に学習したポリシーを監視し、失敗の早期警告を提供するアルゴリズムが必要です。
私たちは、障害の検出を 2 つの相補的なカテゴリに分割する実行時監視フレームワークである Sentinel を提案します。1) 一時的なアクションの一貫性の統計的尺度を使用して検出する、異常な障害。2) ビジョン言語モデル (VLM) を使用する、タスク進行の障害。
) ポリシーがタスクを解決しないアクションを自信を持って一貫して実行することを検出します。
私たちのアプローチには 2 つの重要な強みがあります。
まず、学習されたポリシーは多様な障害モードを示すため、補完的な検出器を組み合わせることで、障害検出の精度が大幅に向上します。
第 2 に、統計的な時間的アクションの一貫性測定を使用することで、マルチモーダルな生成ポリシーが無視できる計算コストで異常な動作を示した場合に、それを迅速に検出できるようになります。
対照的に、時間依存性の低い障害モードを検出するためにのみ VLM を使用します。
私たちは、シミュレーションと現実世界の両方におけるロボットによるモバイル操作ドメインで訓練された普及政策のコンテキストでアプローチを実証します。
時間的整合性検出と VLM ランタイム監視を統合することにより、Sentinel は 2 つの検出器のいずれかを単独で使用する場合よりも 18% 多くの障害を検出し、ベースラインを大幅に上回るパフォーマンスを示します。このため、補完的な障害カテゴリに特殊な検出器を割り当てることの重要性が強調されています。
定性的結果は https://sites.google.com/stanford.edu/sentinel で入手できます。

要約(オリジナル)

Robot behavior policies trained via imitation learning are prone to failure under conditions that deviate from their training data. Thus, algorithms that monitor learned policies at test time and provide early warnings of failure are necessary to facilitate scalable deployment. We propose Sentinel, a runtime monitoring framework that splits the detection of failures into two complementary categories: 1) Erratic failures, which we detect using statistical measures of temporal action consistency, and 2) task progression failures, where we use Vision Language Models (VLMs) to detect when the policy confidently and consistently takes actions that do not solve the task. Our approach has two key strengths. First, because learned policies exhibit diverse failure modes, combining complementary detectors leads to significantly higher accuracy at failure detection. Second, using a statistical temporal action consistency measure ensures that we quickly detect when multimodal, generative policies exhibit erratic behavior at negligible computational cost. In contrast, we only use VLMs to detect failure modes that are less time-sensitive. We demonstrate our approach in the context of diffusion policies trained on robotic mobile manipulation domains in both simulation and the real world. By unifying temporal consistency detection and VLM runtime monitoring, Sentinel detects 18% more failures than using either of the two detectors alone and significantly outperforms baselines, thus highlighting the importance of assigning specialized detectors to complementary categories of failure. Qualitative results are made available at https://sites.google.com/stanford.edu/sentinel.

arxiv情報

著者 Christopher Agia,Rohan Sinha,Jingyun Yang,Zi-ang Cao,Rika Antonova,Marco Pavone,Jeannette Bohg
発行日 2024-10-10 17:09:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.10 パーマリンク