RoboBERT: An End-to-end Multimodal Robotic Manipulation Model

要約

具体化されたインテリジェンスはビジョン、言語、およびアクションをシームレスに統合します。〜しかし、ほとんどのマルチモーダルロボットモデルは、大規模な微調整、ハイタイムとハードウェアコストの発生に依存しています。〜これに対処するために、新しい2段階トレーニングパラダイムを中心に構築されたエンドツーエンドのマルチモーダル操作モデルを紹介します。
CNNベースの拡散ポリシーを介して安定したポリシー学習に焦点を当てる。〜第2段階では、すべてのモジュールを外し、多様な自然言語のバリエーションを挿入し、パフォーマンスを不安定にすることなく、すでに学習したポリシーにさまざまな指示を迅速に調整します。
(SOTA)言語標識エキスパートデモンストレーションと比較的軽量アーキテクチャのみを使用して、カルバンABCD-Dベンチマークで4.52の平均エピソード長4.52およびABC-Dベンチマークで3.79。
マルチモーダルロボットシステムにスケーラブルで広く適用可能なパフォーマンス。

要約(オリジナル)

Embodied intelligence seamlessly integrates vision, language, and action.~However, most multimodal robotic models rely on massive fine-tuning, incurring high time and hardware costs.~To address this, we introduce RoboBERT, an end-to-end multimodal manipulation model built around a novel two-stage training paradigm.~In the first stage, we freeze most of the vision encoder and train with a single ‘standard’ instruction phrasing, allowing the model to focus on stable policy learning via a CNN-based diffusion policy.~In the second stage, we unfreeze all modules and inject diverse natural language variants, rapidly aligning varied instructions to the already-learned policy without destabilizing performance.~We further employ systematic data augmentations to enhance robustness against visual perturbations.~Without relying on auxiliary datasets, RoboBERT achieves new state-of-the-art (SOTA) mean episode lengths of 4.52 on the CALVIN ABCD-D benchmark and 3.79 on the ABC-D benchmark using only language-labeled expert demonstrations and a comparatively lightweight architecture.Real-robot trials on a 6-DOF manipulator confirm higher success rates than comparable methods trained on identical data.These results demonstrate that our data-augmentation-enhanced two-stage training paradigm delivers efficient, scalable, and broadly applicable performance for multimodal robotic systems.

arxiv情報

著者 Sicheng Wang,Sheng Liu,Weiheng Wang,Jianhua Shan,Bin Fang
発行日 2025-05-01 08:09:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク