要約
従来の強化学習ベースのロボット制御手法はタスク固有であることが多く、多様な環境や目に見えないオブジェクトや命令に一般化することができません。
視覚言語モデル(VLM)は、強力なシーン理解および計画能力を実証しますが、特定のロボットの実施形態に合わせた実用的なポリシーを生成する能力に欠けています。
これに対処するために、Visual-Language-Action (VLA) モデルが登場しましたが、長期的な空間推論と地に足の着いたタスク計画において課題に直面しています。
この研究では、接地された思考連鎖と先読み空間推論を備えた身体化されたマルチモーダル アクション モデル、Emma-X を提案します。
Emma-X は、BridgeV2 に基づいて構築された階層的実施形態データセットを活用します。このデータセットには、根拠のあるタスク推論と空間ガイダンスで自動アノテーションが付けられた 60,000 個のロボット操作軌跡が含まれています。
さらに、グリッパーの状態と運動軌跡に基づいた軌跡セグメント化戦略を導入します。これは、グラウンディング サブタスク推論生成における幻覚を軽減するのに役立ちます。
実験結果は、Emma-X が、特に空間推論を必要とする現実世界のロボットタスクにおいて、競合ベースラインを上回る優れたパフォーマンスを達成することを示しています。
要約(オリジナル)
Traditional reinforcement learning-based robotic control methods are often task-specific and fail to generalize across diverse environments or unseen objects and instructions. Visual Language Models (VLMs) demonstrate strong scene understanding and planning capabilities but lack the ability to generate actionable policies tailored to specific robotic embodiments. To address this, Visual-Language-Action (VLA) models have emerged, yet they face challenges in long-horizon spatial reasoning and grounded task planning. In this work, we propose the Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning, Emma-X. Emma-X leverages our constructed hierarchical embodiment dataset based on BridgeV2, containing 60,000 robot manipulation trajectories auto-annotated with grounded task reasoning and spatial guidance. Additionally, we introduce a trajectory segmentation strategy based on gripper states and motion trajectories, which can help mitigate hallucination in grounding subtask reasoning generation. Experimental results demonstrate that Emma-X achieves superior performance over competitive baselines, particularly in real-world robotic tasks requiring spatial reasoning.
arxiv情報
著者 | Qi Sun,Pengfei Hong,Tej Deep Pala,Vernon Toh,U-Xuan Tan,Deepanway Ghosal,Soujanya Poria |
発行日 | 2024-12-16 16:58:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google