AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners

要約

拡散モデルは多くのタスクで強力な生成能力を発揮しており、オフライン強化学習のパラダイムとして大きな可能性を持っている。しかし、拡散モデルの品質は、訓練データの多様性が不十分なために制限され、プランニングの性能と新しいタスクへの一般化可能性を妨げている。本論文では、拡散を用いた進化型プランニング手法であるAdaptDiffuserを紹介する。AdaptDiffuserは、拡散モデルを自己進化させることができるため、見たタスクだけでなく、見たことのないタスクにも適応できる、より優れたプランナーである。AdaptDiffuserは、報酬勾配からのガイダンスを用いて、ゴール条件付きタスクの豊富な合成エキスパートデータを生成することができます。そして、識別器を用いて高品質なデータを選択し、拡散モデルを微調整することで、未経験のタスクへの汎化能力を向上させる。2つのベンチマーク環境と、KUKA産業用ロボットアームとMaze2D環境における慎重に設計された2つの未経験タスクを用いた実証実験により、AdaptDiffuserの有効性を実証した。例えば、AdaptDiffuserは、従来技術のDiffuserをMaze2Dで20.8%、MuJoCoロコモーションで7.5%上回るだけでなく、追加のエキスパートデータを必要とせずに、KUKAピックアンドプレイスなどの新しいタスクに27.9%よりよく適応することができました。より詳細な可視化結果やデモ動画は、プロジェクトページでご覧いただけます。

要約(オリジナル)

Diffusion models have demonstrated their powerful generative capability in many tasks, with great potential to serve as a paradigm for offline reinforcement learning. However, the quality of the diffusion model is limited by the insufficient diversity of training data, which hinders the performance of planning and the generalizability to new tasks. This paper introduces AdaptDiffuser, an evolutionary planning method with diffusion that can self-evolve to improve the diffusion model hence a better planner, not only for seen tasks but can also adapt to unseen tasks. AdaptDiffuser enables the generation of rich synthetic expert data for goal-conditioned tasks using guidance from reward gradients. It then selects high-quality data via a discriminator to finetune the diffusion model, which improves the generalization ability to unseen tasks. Empirical experiments on two benchmark environments and two carefully designed unseen tasks in KUKA industrial robot arm and Maze2D environments demonstrate the effectiveness of AdaptDiffuser. For example, AdaptDiffuser not only outperforms the previous art Diffuser by 20.8% on Maze2D and 7.5% on MuJoCo locomotion, but also adapts better to new tasks, e.g., KUKA pick-and-place, by 27.9% without requiring additional expert data. More visualization results and demo videos could be found on our project page.

arxiv情報

著者 Zhixuan Liang,Yao Mu,Mingyu Ding,Fei Ni,Masayoshi Tomizuka,Ping Luo
発行日 2023-05-12 16:23:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク