Mini Diffuser: Fast Multi-task Diffusion Policy Training Using Two-level Mini-batches

要約

マルチタスクビジョン言語ロボット拡散ポリシーをトレーニングするために必要な時間とメモリを数桁削減する方法を提示します。
この改善は、アクションの拡散とそれに影響を与えた画像拡散技術との間の以前に採用されていない区別から生じます。画像生成では、ターゲットは高次元です。
対照的に、アクション生成では、ターゲットの次元は比較的小さく、画像条件のみが高次元です。
私たちのアプローチ、\ emph {mini diffuser}は、従来の1対1のサンプリング戦略ではなく、各視力言語条件と複数のノイズされたアクションサンプルをペアにする\ emphe {2レベルのミニバッチ}を導入することにより、この非対称性を活用します。
このバッチスキームをサポートするために、完全なコンディショニングアクセスを維持しながら、サンプル間の情報漏れを防ぐ拡散トランスに建築的適応を導入します。
RLBenchシミュレーションでは、Mini-Diffuserは、最先端のマルチタスク拡散ポリシーのパフォーマンスの95%を達成し、トレーニング時間の5 \%とメモリの7 \%のみを使用します。
実際の実験では、ミニディフューザーがマルチモーダルアクション分布をモデル化し、多様な知覚入力を条件付けた動作を生成する能力など、拡散ベースのポリシーの重要な強みを保持することをさらに検証します。
mim-diffuse-portor.github.ioで入手可能なコード

要約(オリジナル)

We present a method that reduces, by an order of magnitude, the time and memory needed to train multi-task vision-language robotic diffusion policies. This improvement arises from a previously underexplored distinction between action diffusion and the image diffusion techniques that inspired it: In image generation, the target is high-dimensional. By contrast, in action generation, the dimensionality of the target is comparatively small, and only the image condition is high-dimensional. Our approach, \emph{Mini Diffuser}, exploits this asymmetry by introducing \emph{two-level minibatching}, which pairs multiple noised action samples with each vision-language condition, instead of the conventional one-to-one sampling strategy. To support this batching scheme, we introduce architectural adaptations to the diffusion transformer that prevent information leakage across samples while maintaining full conditioning access. In RLBench simulations, Mini-Diffuser achieves 95\% of the performance of state-of-the-art multi-task diffusion policies, while using only 5\% of the training time and 7\% of the memory. Real-world experiments further validate that Mini-Diffuser preserves the key strengths of diffusion-based policies, including the ability to model multimodal action distributions and produce behavior conditioned on diverse perceptual inputs. Code available at mini-diffuse-actor.github.io

arxiv情報

著者 Yutong Hu,Pinhao Song,Kehan Wen,Renaud Detry
発行日 2025-06-05 14:01:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク