要約
最近の研究では、拡散モデルが、動作クローニングにおけるデモンストレーション データから生じる多峰性分布を学習するための効果的なアプローチであることが示されています。
ただし、このアプローチの欠点は、ノイズ除去関数を学習する必要があることであり、明示的なポリシーを学習するよりもはるかに複雑です。
この研究では、領域の対称性を利用してノイズ除去関数のサンプル効率と一般化を向上させる新しい拡散ポリシー学習方法である等変拡散ポリシーを提案します。
完全な 6-DoF 制御の $\mathrm{SO}(2)$ 対称性を理論的に解析し、拡散モデルが $\mathrm{SO}(2)$ 等変である場合の特徴を示します。
さらに、MimicGen の 12 のシミュレーション タスクのセットでこの方法を実験的に評価し、ベースラインの拡散ポリシーよりも平均で 21.9% 高い成功率が得られることを示します。
また、実世界のシステムでこの方法を評価し、比較的少ないトレーニング サンプルで効果的なポリシーを学習できるのに対し、ベースラインの拡散ポリシーでは学習できないことを示します。
要約(オリジナル)
Recent work has shown diffusion models are an effective approach to learning the multimodal distributions arising from demonstration data in behavior cloning. However, a drawback of this approach is the need to learn a denoising function, which is significantly more complex than learning an explicit policy. In this work, we propose Equivariant Diffusion Policy, a novel diffusion policy learning method that leverages domain symmetries to obtain better sample efficiency and generalization in the denoising function. We theoretically analyze the $\mathrm{SO}(2)$ symmetry of full 6-DoF control and characterize when a diffusion model is $\mathrm{SO}(2)$-equivariant. We furthermore evaluate the method empirically on a set of 12 simulation tasks in MimicGen, and show that it obtains a success rate that is, on average, 21.9% higher than the baseline Diffusion Policy. We also evaluate the method on a real-world system to show that effective policies can be learned with relatively few training samples, whereas the baseline Diffusion Policy cannot.
arxiv情報
著者 | Dian Wang,Stephen Hart,David Surovik,Tarik Kelestemur,Haojie Huang,Haibo Zhao,Mark Yeatman,Jiuguang Wang,Robin Walters,Robert Platt |
発行日 | 2024-07-01 21:23:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google