要約
マルチモーダル大手言語モデル(MLLM)の最近の進歩は、さまざまなマルチモーダルコンテキストで顕著な機能を示しています。
ただし、特に長老操作タスクのためのロボットシナリオへのアプリケーションは、大きな制限を明らかにしています。
これらの制限は、3つの重要なロボット脳機能を欠いている現在のMLLMから生じます。計画能力は、複雑な操作命令を管理可能なサブタスクに分解することを伴います。
アフォーダンスの認識、インタラクティブオブジェクトのアフォーダンスを認識して解釈する能力。
軌跡の予測である、成功した実行に必要な完全な操作軌跡を予測する先見性。
ロボットの脳のコア機能を抽象からコンクリートまで強化するために、タスク計画、オブジェクトアフォーダンス、エンドエフェクターの軌道などの多次元情報をラベル付けする高品質の不均一なデータセットであるSharerobotを紹介します。
Sharerobotの多様性と精度は、3人の人間のアノテーターによって細心の注意を払って洗練されています。
このデータセットに基づいて、ロボットと一般的なマルチモーダルデータを組み合わせたMLLMベースのモデルであるRoboBrainを開発し、マルチステージトレーニング戦略を利用し、ロボット操作機能を改善するために長いビデオと高解像度画像を組み込んでいます。
広範な実験は、ロボブレインがさまざまなロボットタスクにわたって最先端のパフォーマンスを達成し、ロボット脳の能力を向上させる可能性を強調することを示しています。
要約(オリジナル)
Recent advancements in Multimodal Large Language Models (MLLMs) have shown remarkable capabilities across various multimodal contexts. However, their application in robotic scenarios, particularly for long-horizon manipulation tasks, reveals significant limitations. These limitations arise from the current MLLMs lacking three essential robotic brain capabilities: Planning Capability, which involves decomposing complex manipulation instructions into manageable sub-tasks; Affordance Perception, the ability to recognize and interpret the affordances of interactive objects; and Trajectory Prediction, the foresight to anticipate the complete manipulation trajectory necessary for successful execution. To enhance the robotic brain’s core capabilities from abstract to concrete, we introduce ShareRobot, a high-quality heterogeneous dataset that labels multi-dimensional information such as task planning, object affordance, and end-effector trajectory. ShareRobot’s diversity and accuracy have been meticulously refined by three human annotators. Building on this dataset, we developed RoboBrain, an MLLM-based model that combines robotic and general multi-modal data, utilizes a multi-stage training strategy, and incorporates long videos and high-resolution images to improve its robotic manipulation capabilities. Extensive experiments demonstrate that RoboBrain achieves state-of-the-art performance across various robotic tasks, highlighting its potential to advance robotic brain capabilities.
arxiv情報
著者 | Yuheng Ji,Huajie Tan,Jiayu Shi,Xiaoshuai Hao,Yuan Zhang,Hengyuan Zhang,Pengwei Wang,Mengdi Zhao,Yao Mu,Pengju An,Xinda Xue,Qinghang Su,Huaihai Lyu,Xiaolong Zheng,Jiaming Liu,Zhongyuan Wang,Shanghang Zhang |
発行日 | 2025-03-25 05:46:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google