Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning

要約

拡散ポリシーは模倣学習で広く使用されるようになり、マルチモーダルで不連続な動作の生成など、いくつかの魅力的な特性を提供します。
より複雑な機能を取り込むためにモデルが大型化するにつれて、最近のスケーリングの法則が示すように、その計算需要も増加しています。
したがって、現在のアーキテクチャを継続すると、計算上の障害が発生します。
このギャップに対処するために、私たちは模倣学習の新しいポリシーとして Mixture-of-Denoising Experts (MoDE) を提案します。
MoDE は、現在の最先端の Transformer ベースの拡散ポリシーを上回ると同時に、スパース エキスパートとノイズ条件付きルーティングによるパラメータ効率の高いスケーリングを可能にし、アクティブ パラメータを 40% 削減し、エキスパート キャッシングにより推論コストを 90% 削減します。
私たちのアーキテクチャは、この効率的なスケーリングとノイズ調整されたセルフアテンション メカニズムを組み合わせており、さまざまなノイズ レベルにわたってより効果的なノイズ除去を可能にします。
MoDE は、確立された 4 つの模倣学習ベンチマーク (CALVIN および LIBERO) の 134 のタスクで最先端のパフォーマンスを達成しています。
特に、多様なロボティクス データで MoDE を事前トレーニングすることにより、CALVIN ABC では 4.01、LIBERO-90 では 0.95 を達成しています。
CNN ベースの拡散ポリシーとトランスフォーマーの拡散ポリシーの両方を 4 つのベンチマークで平均 57% 上回り、デフォルトの拡散トランスフォーマー アーキテクチャと比較して使用する FLOP とアクティブ パラメーターが 90% 少なくなります。
さらに、MoDE のコンポーネントに対して包括的なアブレーションを実施し、普及政策のための効率的でスケーラブルなトランス アーキテクチャを設計するための洞察を提供します。
コードとデモは https://mbreuss.github.io/MoDE_Diffusion_Policy/ で入手できます。

要約(オリジナル)

Diffusion Policies have become widely used in Imitation Learning, offering several appealing properties, such as generating multimodal and discontinuous behavior. As models are becoming larger to capture more complex capabilities, their computational demands increase, as shown by recent scaling laws. Therefore, continuing with the current architectures will present a computational roadblock. To address this gap, we propose Mixture-of-Denoising Experts (MoDE) as a novel policy for Imitation Learning. MoDE surpasses current state-of-the-art Transformer-based Diffusion Policies while enabling parameter-efficient scaling through sparse experts and noise-conditioned routing, reducing both active parameters by 40% and inference costs by 90% via expert caching. Our architecture combines this efficient scaling with noise-conditioned self-attention mechanism, enabling more effective denoising across different noise levels. MoDE achieves state-of-the-art performance on 134 tasks in four established imitation learning benchmarks (CALVIN and LIBERO). Notably, by pretraining MoDE on diverse robotics data, we achieve 4.01 on CALVIN ABC and 0.95 on LIBERO-90. It surpasses both CNN-based and Transformer Diffusion Policies by an average of 57% across 4 benchmarks, while using 90% fewer FLOPs and fewer active parameters compared to default Diffusion Transformer architectures. Furthermore, we conduct comprehensive ablations on MoDE’s components, providing insights for designing efficient and scalable Transformer architectures for Diffusion Policies. Code and demonstrations are available at https://mbreuss.github.io/MoDE_Diffusion_Policy/.

arxiv情報

著者 Moritz Reuss,Jyothish Pari,Pulkit Agrawal,Rudolf Lioutikov
発行日 2024-12-17 14:34:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク