要約
模倣学習は、環境からの報酬シグナルにアクセスすることなく、専門家のデモンストレーションを観察することによって、学習の課題に対処します。
行動クローニング (BC) は、模倣学習を教師あり学習問題として定式化し、サンプリングされた状態と行動のペアから学習します。
その単純さにもかかわらず、多くの場合、タスクの時間構造と専門家のデモの全体的な情報を捉えることができません。
この作業は、専門家の行動をモデル化するための拡散モデルを採用し、学習した拡散モデルを活用してポリシー学習を導く学習目標を設計することにより、BC を強化することを目的としています。
この目的のために、私たちは、提案された拡散モデル誘導学習目標と、互いに補完するBC目標を組み合わせた拡散モデル強化行動クローニング(Diffusion-BC)を提案します。
提案された方法は、ナビゲーション、ロボット アームの操作、移動など、さまざまな連続制御ドメインでベースラインを上回るか、競争力のあるパフォーマンスを達成します。
アブレーション研究は、私たちの設計の選択を正当化し、BC と提案された拡散モデルの目的のバランスをとる効果を調査します。
要約(オリジナル)
Imitation learning addresses the challenge of learning by observing an expert’s demonstrations without access to reward signals from the environment. Behavioral cloning (BC) formulates imitation learning as a supervised learning problem and learns from sampled state-action pairs. Despite its simplicity, it often fails to capture the temporal structure of the task and the global information of expert demonstrations. This work aims to augment BC by employing diffusion models for modeling expert behaviors, and designing a learning objective that leverages learned diffusion models to guide policy learning. To this end, we propose diffusion model-augmented behavioral cloning (Diffusion-BC) that combines our proposed diffusion model guided learning objective with the BC objective, which complements each other. Our proposed method outperforms baselines or achieves competitive performance in various continuous control domains, including navigation, robot arm manipulation, and locomotion. Ablation studies justify our design choices and investigate the effect of balancing the BC and our proposed diffusion model objective.
arxiv情報
著者 | Hsiang-Chun Wang,Shang-Fu Chen,Shao-Hua Sun |
発行日 | 2023-02-26 15:40:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google