Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning

要約

ロボット工学におけるタスクの複雑さの増大により、マルチタスクと継続的な学習のための効率的な戦略が必要になります。
従来のモデルは通常、すべてのタスクに対して普遍的なポリシーに依存しており、高い計算コストや新しいタスクを学習する際の壊滅的な忘れなどの課題に直面しています。
これらの問題に対処するために、スパースで再利用可能で柔軟なポリシーである Sparse Diffusion Policy (SDP) を導入します。
トランスフォーマーベースの普及ポリシー内で専門家の混合(MoE)を採用することにより、SDP は専門家とスキルを選択的にアクティブ化し、モデル全体を再トレーニングすることなく効率的でタスク固有の学習を可能にします。
SDP は、アクティブなパラメータの負担を軽減するだけでなく、さまざまなタスクにわたる専門家のシームレスな統合と再利用を促進します。
シミュレーションと現実世界の両方での多様なタスクに関する広範な実験により、SDP は 1) アクティブなパラメーターの増加が無視できる程度でマルチタスク シナリオに優れていること、2) 新しいタスクの継続的な学習での忘れを防ぐこと、3) 効率的なタスクの転送が可能であり、有望なソリューションを提供することが示されています。
高度なロボットアプリケーション向け。
デモとコードは https://forrest-110.github.io/sparse_diffusion_policy/ にあります。

要約(オリジナル)

The increasing complexity of tasks in robotics demands efficient strategies for multitask and continual learning. Traditional models typically rely on a universal policy for all tasks, facing challenges such as high computational costs and catastrophic forgetting when learning new tasks. To address these issues, we introduce a sparse, reusable, and flexible policy, Sparse Diffusion Policy (SDP). By adopting Mixture of Experts (MoE) within a transformer-based diffusion policy, SDP selectively activates experts and skills, enabling efficient and task-specific learning without retraining the entire model. SDP not only reduces the burden of active parameters but also facilitates the seamless integration and reuse of experts across various tasks. Extensive experiments on diverse tasks in both simulations and real world show that SDP 1) excels in multitask scenarios with negligible increases in active parameters, 2) prevents forgetting in continual learning of new tasks, and 3) enables efficient task transfer, offering a promising solution for advanced robotic applications. Demos and codes can be found in https://forrest-110.github.io/sparse_diffusion_policy/.

arxiv情報

著者 Yixiao Wang,Yifei Zhang,Mingxiao Huo,Ran Tian,Xiang Zhang,Yichen Xie,Chenfeng Xu,Pengliang Ji,Wei Zhan,Mingyu Ding,Masayoshi Tomizuka
発行日 2024-10-24 22:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク