Diffusion Model-Augmented Behavioral Cloning


行動クローニング (BC) は、模倣学習を教師あり学習問題として定式化し、サンプリングされた状態と行動のペアから学習します。
この作業は、専門家の行動をモデル化するための拡散モデルを採用し、学習した拡散モデルを活用してポリシー学習を導く学習目標を設計することにより、BC を強化することを目的としています。
提案された方法は、ナビゲーション、ロボット アームの操作、移動など、さまざまな連続制御ドメインでベースラインを上回るか、競争力のあるパフォーマンスを達成します。
アブレーション研究は、私たちの設計の選択を正当化し、BC と提案された拡散モデルの目的のバランスをとる効果を調査します。


Imitation learning addresses the challenge of learning by observing an expert’s demonstrations without access to reward signals from the environment. Behavioral cloning (BC) formulates imitation learning as a supervised learning problem and learns from sampled state-action pairs. Despite its simplicity, it often fails to capture the temporal structure of the task and the global information of expert demonstrations. This work aims to augment BC by employing diffusion models for modeling expert behaviors, and designing a learning objective that leverages learned diffusion models to guide policy learning. To this end, we propose diffusion model-augmented behavioral cloning (Diffusion-BC) that combines our proposed diffusion model guided learning objective with the BC objective, which complements each other. Our proposed method outperforms baselines or achieves competitive performance in various continuous control domains, including navigation, robot arm manipulation, and locomotion. Ablation studies justify our design choices and investigate the effect of balancing the BC and our proposed diffusion model objective.


著者 Hsiang-Chun Wang,Shang-Fu Chen,Shao-Hua Sun
発行日 2023-02-26 15:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク