The Ingredients for Robotic Diffusion Transformers

要約

近年、ロボット工学者は、大容量の Transformer ネットワーク アーキテクチャと生成拡散モデルを活用して、器用なロボット ハードウェアでますます一般的なタスクを解決するという点で目覚ましい進歩を遂げています。
残念ながら、重要な設計選択を行うための明確でよく理解されたプロセスがないため、これら 2 つの直交する改善を組み合わせるのは驚くほど難しいことが判明しています。
このペーパーでは、大容量拡散変圧器ポリシーに関する主要なアーキテクチャ設計上の決定事項を特定、研究、改善します。
結果として得られるモデルは、セットアップごとのハイパーパラメータ調整という耐え難い苦痛を伴うことなく、複数のロボットの実施形態上で多様なタスクを効率的に解決することができる。
私たちの調査結果と改良されたモデル コンポーネントを組み合わせることで、\method という名前の新しいアーキテクチャを提示することができます。これは、長期 ($1500+$ タイムステップ) の器用なタスクを解決する際に最先端のパフォーマンスを大幅に上回ります。
両手操作のALOHAロボット。
さらに、高度にマルチモーダルで言語注釈が付けられた 10 時間の ALOHA デモ データでトレーニングした場合、私たちのポリシーはスケーリング パフォーマンスの向上を示していることがわかりました。
私たちは、この研究が、大規模変圧器アーキテクチャの拡張性を備えた生成拡散モデリングの効率を活用する将来のロボット学習技術への扉を開くことを願っています。
コード、ロボット データセット、ビデオは https://dit-policy.github.io から入手できます。

要約(オリジナル)

In recent years roboticists have achieved remarkable progress in solving increasingly general tasks on dexterous robotic hardware by leveraging high capacity Transformer network architectures and generative diffusion models. Unfortunately, combining these two orthogonal improvements has proven surprisingly difficult, since there is no clear and well-understood process for making important design choices. In this paper, we identify, study and improve key architectural design decisions for high-capacity diffusion transformer policies. The resulting models can efficiently solve diverse tasks on multiple robot embodiments, without the excruciating pain of per-setup hyper-parameter tuning. By combining the results of our investigation with our improved model components, we are able to present a novel architecture, named \method, that significantly outperforms the state of the art in solving long-horizon ($1500+$ time-steps) dexterous tasks on a bi-manual ALOHA robot. In addition, we find that our policies show improved scaling performance when trained on 10 hours of highly multi-modal, language annotated ALOHA demonstration data. We hope this work will open the door for future robot learning techniques that leverage the efficiency of generative diffusion modeling with the scalability of large scale transformer architectures. Code, robot dataset, and videos are available at: https://dit-policy.github.io

arxiv情報

著者 Sudeep Dasari,Oier Mees,Sebastian Zhao,Mohan Kumar Srirama,Sergey Levine
発行日 2024-10-14 02:02:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク