RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

要約

ロボット工学では両手操作が不可欠ですが、2 つのロボット アームを調整する固有の複雑さ (マルチモーダルな動作の分布につながる) とトレーニング データの不足により、基礎モデルの開発は非常に困難です。
この論文では、両手操作のための先駆的な拡散基礎モデルであるロボット拡散トランス (RDT) を紹介します。
RDT は、マルチモーダル入力の不均一性に対処し、ロボット データの非線形性と高周波をキャプチャするためのスケーラブルなトランスフォーマーの革新的な設計により、マルチモダリティを効果的に表現する拡散モデルに基づいて構築されています。
データ不足に対処するために、物理的に解釈可能な統合アクション空間をさらに導入します。これは、元のアクションの物理的意味を維持しながら、さまざまなロボットのアクション表現を統合でき、移転可能な物理的知識の学習を促進します。
これらの設計により、これまでで最大のマルチロボット データセットのコレクションで RDT を事前トレーニングすることができ、ロボット操作のための最大の拡散ベースの基礎モデルである 1.2B パラメータまでスケールアップできました。
私たちは最終的に、6,000 以上のエピソードを含む自己作成のマルチタスク双方向データセットで RDT を微調整し、その操作機能を磨きました。
実際のロボットでの実験では、RDT が既存の方法よりも大幅に優れていることが実証されています。
目に見えないオブジェクトやシーンに対してゼロショットの一般化を示し、言語の指示を理解して従い、わずか 1 ~ 5 回のデモン​​ストレーションで新しいスキルを学習し、複雑で器用なタスクを効果的に処理します。
コードとビデオについては、https://rdt-robotics.github.io/rdt-robotics/ を参照してください。

要約(オリジナル)

Bimanual manipulation is essential in robotics, yet developing foundation models is extremely challenging due to the inherent complexity of coordinating two robot arms (leading to multi-modal action distributions) and the scarcity of training data. In this paper, we present the Robotics Diffusion Transformer (RDT), a pioneering diffusion foundation model for bimanual manipulation. RDT builds on diffusion models to effectively represent multi-modality, with innovative designs of a scalable Transformer to deal with the heterogeneity of multi-modal inputs and to capture the nonlinearity and high frequency of robotic data. To address data scarcity, we further introduce a Physically Interpretable Unified Action Space, which can unify the action representations of various robots while preserving the physical meanings of original actions, facilitating learning transferrable physical knowledge. With these designs, we managed to pre-train RDT on the largest collection of multi-robot datasets to date and scaled it up to 1.2B parameters, which is the largest diffusion-based foundation model for robotic manipulation. We finally fine-tuned RDT on a self-created multi-task bimanual dataset with over 6K+ episodes to refine its manipulation capabilities. Experiments on real robots demonstrate that RDT significantly outperforms existing methods. It exhibits zero-shot generalization to unseen objects and scenes, understands and follows language instructions, learns new skills with just 1~5 demonstrations, and effectively handles complex, dexterous tasks. We refer to https://rdt-robotics.github.io/rdt-robotics/ for the code and videos.

arxiv情報

著者 Songming Liu,Lingxuan Wu,Bangguo Li,Hengkai Tan,Huayu Chen,Zhengyi Wang,Ke Xu,Hang Su,Jun Zhu
発行日 2024-10-10 12:33:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク