ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment

要約

私たちは、人間のユーザーが具体化された環境でエージェントの相互作用を導くために、意味的に明確で空間的に敏感で、直感的な目標仕様方法を開発することを目指しています。
具体的には、ユーザーがエージェントの観測ではなく、独自のカメラビューからセグメンテーションマスクを使用してターゲットオブジェクトを指定できる新しいクロスビュー目標アライメントフレームワークを提案します。
クローニングだけで、人間とエージェントのカメラのビューが大きく異なる場合、エージェントの行動を人間の意図に合わせることができないことを強調します。
これに対処するために、2つの補助目的を紹介します。クロスビューの一貫性の損失とターゲットの可視性損失を紹介します。これにより、エージェントの空間推論能力が明示的に向上します。
According to this, we develop ROCKET-2, a state-of-the-art agent trained in Minecraft, achieving an improvement in the efficiency of inference 3x to 6x.
Rocket-2は、人間のカメラビューから初めて目標を直接解釈できることを示しており、より良い人間と相互作用のための道を開いています。

要約(オリジナル)

We aim to develop a goal specification method that is semantically clear, spatially sensitive, and intuitive for human users to guide agent interactions in embodied environments. Specifically, we propose a novel cross-view goal alignment framework that allows users to specify target objects using segmentation masks from their own camera views rather than the agent’s observations. We highlight that behavior cloning alone fails to align the agent’s behavior with human intent when the human and agent camera views differ significantly. To address this, we introduce two auxiliary objectives: cross-view consistency loss and target visibility loss, which explicitly enhance the agent’s spatial reasoning ability. According to this, we develop ROCKET-2, a state-of-the-art agent trained in Minecraft, achieving an improvement in the efficiency of inference 3x to 6x. We show ROCKET-2 can directly interpret goals from human camera views for the first time, paving the way for better human-agent interaction.

arxiv情報

著者 Shaofei Cai,Zhancun Mu,Anji Liu,Yitao Liang
発行日 2025-03-04 11:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク