要約
ビジョン言語モデル (VLM) はマルチモーダルなタスクに優れていますが、オープンワールド環境での具体的な意思決定に適応させるには課題が伴います。
重要な問題は、低レベルの観測における個々のエンティティと計画に必要な抽象的な概念をスムーズに結び付けることが難しいことです。
この問題に対処する一般的なアプローチは、階層エージェントを使用することです。階層エージェントでは、VLM がタスクを実行可能なサブタスクに分割する高レベルの推論機能として機能し、通常は言語と想像上の観察を使用して指定されます。
しかし、言語は空間情報を効果的に伝えることができないことが多く、将来の画像を十分な精度で生成することは依然として困難です。
これらの制限に対処するために、私たちは、VLM とポリシー モデル間の新しい通信プロトコルである視覚的時間的コンテキスト プロンプトを提案します。
このプロトコルは、過去と現在の両方の観察からのオブジェクトのセグメンテーションを利用して、ポリシーと環境の相互作用をガイドします。
このアプローチを使用して、SAM-2 によって提供されるリアルタイムのオブジェクト追跡を使用して、連結された視覚的観察とセグメンテーション マスクに基づいてアクションを予測する低レベルのポリシーである ROCKET-1 をトレーニングします。
私たちの方法は、VLM の視覚言語推論能力の可能性を最大限に引き出し、複雑な創造的なタスク、特に空間理解に大きく依存するタスクを解決できるようにします。
Minecraft での実験では、私たちのアプローチにより、エージェントが以前は達成できなかったタスクを達成できることが実証され、身体化された意思決定における視覚的・時間的コンテキストのプロンプトの有効性が強調されています。
コードとデモはプロジェクト ページ https://craftjarvis.github.io/ROCKET-1 で入手できます。
要約(オリジナル)
Vision-language models (VLMs) have excelled in multimodal tasks, but adapting them to embodied decision-making in open-world environments presents challenges. A key issue is the difficulty in smoothly connecting individual entities in low-level observations with abstract concepts required for planning. A common approach to address this problem is through the use of hierarchical agents, where VLMs serve as high-level reasoners that break down tasks into executable sub-tasks, typically specified using language and imagined observations. However, language often fails to effectively convey spatial information, while generating future images with sufficient accuracy remains challenging. To address these limitations, we propose visual-temporal context prompting, a novel communication protocol between VLMs and policy models. This protocol leverages object segmentation from both past and present observations to guide policy-environment interactions. Using this approach, we train ROCKET-1, a low-level policy that predicts actions based on concatenated visual observations and segmentation masks, with real-time object tracking provided by SAM-2. Our method unlocks the full potential of VLMs visual-language reasoning abilities, enabling them to solve complex creative tasks, especially those heavily reliant on spatial understanding. Experiments in Minecraft demonstrate that our approach allows agents to accomplish previously unattainable tasks, highlighting the effectiveness of visual-temporal context prompting in embodied decision-making. Codes and demos will be available on the project page: https://craftjarvis.github.io/ROCKET-1.
arxiv情報
著者 | Shaofei Cai,Zihao Wang,Kewei Lian,Zhancun Mu,Xiaojian Ma,Anji Liu,Yitao Liang |
発行日 | 2024-10-23 13:26:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google