要約
現在のロボットの自律性は、システムが機能するように設計されている特定の条件と環境である想定される運用設計ドメイン (ODD) を超えて動作するのが困難ですが、現実世界には障害につながる可能性のある不確実性があふれています。
リカバリの自動化は依然として大きな課題です。
従来の方法では、手動で障害に対処したり、障害ケースを徹底的に列挙してシナリオごとに特定の回復ポリシーを設計したりするために人間の介入に依存することが多く、どちらも労働集約的です。
基礎的な視覚言語モデル (VLM) は、驚くべき常識的な一般化と推論能力を実証しており、より広範で潜在的に制限のない ODD を備えています。
ただし、空間推論の制限は、ロボット制御やモーションレベルのエラー回復に適用される場合、多くの VLM にとって引き続き共通の課題です。
この論文では、視覚的プロンプトとテキスト プロンプトを最適化することで VLM の空間推論がどのように強化され、動作レベルの位置補正と未知の障害からのタスク レベルの回復の両方において VLM がブラック ボックス コントローラーとして効果的に機能できるようにする方法を調査します。
具体的には、最適化には、視覚的なプロンプト内の重要な視覚的要素の特定、クエリ用のテキスト プロンプト内のこれらの要素の強調表示、障害検出と制御生成のための推論プロセスの分解が含まれます。
実験では、プロンプトの最適化は、モーションレベルの位置誤差の修正において、事前トレーニング済みの視覚言語アクションモデルを大幅に上回り、最適化されていないプロンプトを使用した VLM と比較して精度が 65.78% 向上しました。
さらに、タスクレベルの障害の場合、最適化されたプロンプトにより、VLM のさまざまな未知のエラーに対する障害の検出、問題の分析、回復計画の生成の成功率がそれぞれ 5.8%、5.8%、7.5% 向上しました。
レゴの組み立て。
要約(オリジナル)
Current robot autonomy struggles to operate beyond the assumed Operational Design Domain (ODD), the specific set of conditions and environments in which the system is designed to function, while the real-world is rife with uncertainties that may lead to failures. Automating recovery remains a significant challenge. Traditional methods often rely on human intervention to manually address failures or require exhaustive enumeration of failure cases and the design of specific recovery policies for each scenario, both of which are labor-intensive. Foundational Vision-Language Models (VLMs), which demonstrate remarkable common-sense generalization and reasoning capabilities, have broader, potentially unbounded ODDs. However, limitations in spatial reasoning continue to be a common challenge for many VLMs when applied to robot control and motion-level error recovery. In this paper, we investigate how optimizing visual and text prompts can enhance the spatial reasoning of VLMs, enabling them to function effectively as black-box controllers for both motion-level position correction and task-level recovery from unknown failures. Specifically, the optimizations include identifying key visual elements in visual prompts, highlighting these elements in text prompts for querying, and decomposing the reasoning process for failure detection and control generation. In experiments, prompt optimizations significantly outperform pre-trained Vision-Language-Action Models in correcting motion-level position errors and improve accuracy by 65.78% compared to VLMs with unoptimized prompts. Additionally, for task-level failures, optimized prompts enhanced the success rate by 5.8%, 5.8%, and 7.5% in VLMs’ abilities to detect failures, analyze issues, and generate recovery plans, respectively, across a wide range of unknown errors in Lego assembly.
arxiv情報
| 著者 | Hongyi Chen,Yunchao Yao,Ruixuan Liu,Changliu Liu,Jeffrey Ichnowski |
| 発行日 | 2024-09-06 01:29:35+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google