An Embodied Generalist Agent in 3D World

要約

大規模言語モデル (LLM) からの膨大な知識と学習スキームを活用する最近の機械学習モデルは、自然言語処理、コンピューター ビジョン、ロボット工学など、さまざまなドメインで汎用タスクを解決する機能を示すジェネラリスト エージェントの構築に顕著な成功を収めています。
ただし、これらのモデルは 3D 世界を理解して対話する能力が限られているため、大きな課題が残っています。
この制限により、現在のモデルが現実世界のタスクを実行し、さらに一般的な知能を達成することが大幅に妨げられると私たちは主張します。
この目的を達成するために、3D 世界での知覚、根拠付け、推論、計画、および行動に優れた、体現されたマルチモーダルでマルチタスクのジェネラリスト エージェントを導入します。
LEO と呼ばれる私たちが提案するエージェントは、共有 LLM ベースのモデル アーキテクチャ、目的、重みを 2 つの段階でトレーニングされます: (i) 3D ビジョンと言語の調整、(ii) 3D ビジョンと言語とアクションの指示の調整。
トレーニングを促進するために、私たちは、3D 世界に対する深い理解と相互作用を必要とする、スケールと複雑さを超えるオブジェクト レベルおよびシーン レベルのマルチモーダル タスクで構成される広範なデータセットを細心の注意を払って厳選して生成します。
厳密な実験を通じて、3D キャプション、質問応答、身体的推論、身体的ナビゲーション、ロボット操作など、幅広いタスクにわたって LEO の驚くべき熟練度を実証しました。
我々のアブレーション結果は、将来の身体化ジェネラリストエージェントの開発に貴重な洞察をさらに提供します。

要約(オリジナル)

Leveraging massive knowledge and learning schemes from large language models (LLMs), recent machine learning models show notable successes in building generalist agents that exhibit the capability of general-purpose task solving in diverse domains, including natural language processing, computer vision, and robotics. However, a significant challenge remains as these models exhibit limited ability in understanding and interacting with the 3D world. We argue this limitation significantly hinders the current models from performing real-world tasks and further achieving general intelligence. To this end, we introduce an embodied multi-modal and multi-task generalist agent that excels in perceiving, grounding, reasoning, planning, and acting in the 3D world. Our proposed agent, referred to as LEO, is trained with shared LLM-based model architectures, objectives, and weights in two stages: (i) 3D vision-language alignment and (ii) 3D vision-language-action instruction tuning. To facilitate the training, we meticulously curate and generate an extensive dataset comprising object-level and scene-level multi-modal tasks with exceeding scale and complexity, necessitating a deep understanding of and interaction with the 3D world. Through rigorous experiments, we demonstrate LEO’s remarkable proficiency across a wide spectrum of tasks, including 3D captioning, question answering, embodied reasoning, embodied navigation, and robotic manipulation. Our ablation results further provide valuable insights for the development of future embodied generalist agents.

arxiv情報

著者 Jiangyong Huang,Silong Yong,Xiaojian Ma,Xiongkun Linghu,Puhao Li,Yan Wang,Qing Li,Song-Chun Zhu,Baoxiong Jia,Siyuan Huang
発行日 2024-04-19 14:36:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク