要約
世界とのインタラクションは、多感覚体験です。効果的な汎用インタラクションを実現するには、視覚、触覚、音声など、利用可能なすべてのモダリティを利用して、部分的な観察のギャップを埋める必要があります。
たとえば、バッグに手を伸ばすときに視界が遮られる場合、ロボットは触覚と音に頼るべきです。
ただし、最先端のジェネラリストロボットポリシーは通常、視覚と固有受容の観察のみからロボットの動作を予測するために大規模なデータセットでトレーニングされます。
この研究では、共通のクロスモーダル基盤として自然言語を活用することで、大規模なデータセットが容易に利用できない異種センサーモダリティに関する視覚運動ジェネラリストポリシーの微調整を可能にする新しいアプローチである FuSe を提案します。
マルチモーダルな対比損失と感覚に基づいた言語生成損失を組み合わせて、高レベルのセマンティクスをエンコードします。
ロボット操作のコンテキストでは、FuSe が、マルチモーダル プロンプト、構成的クロスモーダル プロンプト、およびロボットの説明など、ゼロショット設定で視覚、触覚、音響などのモダリティを組み合わせて推論する必要がある困難なタスクを実行できることを示します。
相互作用するオブジェクト。
我々は、拡散ベースのジェネラリスト政策と大規模なビジョン・言語・アクション(VLA)モデルの両方を含む、広範囲に異なるジェネラリスト政策に同じレシピが適用できることを示します。
現実世界での大規模な実験により、Fusei は考慮されたすべてのベースラインと比較して成功率を 20% 以上高めることができることが示されています。
要約(オリジナル)
Interacting with the world is a multi-sensory experience: achieving effective general-purpose interaction requires making use of all available modalities — including vision, touch, and audio — to fill in gaps from partial observation. For example, when vision is occluded reaching into a bag, a robot should rely on its senses of touch and sound. However, state-of-the-art generalist robot policies are typically trained on large datasets to predict robot actions solely from visual and proprioceptive observations. In this work, we propose FuSe, a novel approach that enables finetuning visuomotor generalist policies on heterogeneous sensor modalities for which large datasets are not readily available by leveraging natural language as a common cross-modal grounding. We combine a multimodal contrastive loss with a sensory-grounded language generation loss to encode high-level semantics. In the context of robot manipulation, we show that FuSe enables performing challenging tasks that require reasoning jointly over modalities such as vision, touch, and sound in a zero-shot setting, such as multimodal prompting, compositional cross-modal prompting, and descriptions of objects it interacts with. We show that the same recipe is applicable to widely different generalist policies, including both diffusion-based generalist policies and large vision-language-action (VLA) models. Extensive experiments in the real world show that FuSeis able to increase success rates by over 20% compared to all considered baselines.
arxiv情報
著者 | Joshua Jones,Oier Mees,Carmelo Sferrazza,Kyle Stachowicz,Pieter Abbeel,Sergey Levine |
発行日 | 2025-01-08 18:57:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google