ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting

要約

ビジョン言語モデル (VLM) はマルチモーダルなタスクに優れていますが、オープンワールド環境での具体的な意思決定に適応させるには課題が伴います。
重要な問題の 1 つは、低レベルの観測における個別のエンティティと、効果的な計画に必要な抽象的な概念との間のギャップを埋めることです。
一般的な解決策は、階層型エージェントを構築することです。VLM は、タスクを実行可能なサブタスクに分割する高レベルの推論機能として機能し、通常は言語を使用して指定されます。
しかし、言語は詳細な空間情報を伝達できないという欠点があります。
我々は、VLM とポリシー モデル間の新しい通信プロトコルである視覚的時間的コンテキスト プロンプトを提案します。
このプロトコルは、過去の観察からのオブジェクトのセグメンテーションを活用して、ポリシーと環境の相互作用をガイドします。
このアプローチを使用して、SAM-2 からのリアルタイム オブジェクト追跡によってサポートされる、連結された視覚的観察とセグメンテーション マスクに基づいてアクションを予測する低レベルのポリシーである ROCKET-1 をトレーニングします。
私たちの方法は VLM の可能性を解き放ち、空間推論を必要とする複雑なタスクに取り組むことができるようにします。
Minecraft での実験では、私たちのアプローチにより、オープンワールド インタラクション パフォーマンスが $\mathbf{76}\%$ 絶対的に向上し、エージェントがこれまで達成できなかったタスクを達成できることがわかりました。
コードとデモは現在、プロジェクト ページ https://craftjarvis.github.io/ROCKET-1 で入手できます。

要約(オリジナル)

Vision-language models (VLMs) have excelled in multimodal tasks, but adapting them to embodied decision-making in open-world environments presents challenges. One critical issue is bridging the gap between discrete entities in low-level observations and the abstract concepts required for effective planning. A common solution is building hierarchical agents, where VLMs serve as high-level reasoners that break down tasks into executable sub-tasks, typically specified using language. However, language suffers from the inability to communicate detailed spatial information. We propose visual-temporal context prompting, a novel communication protocol between VLMs and policy models. This protocol leverages object segmentation from past observations to guide policy-environment interactions. Using this approach, we train ROCKET-1, a low-level policy that predicts actions based on concatenated visual observations and segmentation masks, supported by real-time object tracking from SAM-2. Our method unlocks the potential of VLMs, enabling them to tackle complex tasks that demand spatial reasoning. Experiments in Minecraft show that our approach enables agents to achieve previously unattainable tasks, with a $\mathbf{76}\%$ absolute improvement in open-world interaction performance. Codes and demos are now available on the project page: https://craftjarvis.github.io/ROCKET-1.

arxiv情報

著者 Shaofei Cai,Zihao Wang,Kewei Lian,Zhancun Mu,Xiaojian Ma,Anji Liu,Yitao Liang
発行日 2024-11-14 12:29:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク