要約
模倣学習は、環境からの報酬信号にアクセスすることなく、エキスパートの実演を観察することで学習するという課題に取り組む。環境との相互作用を必要としない既存の模倣学習法の多くは、専門家の分布を条件付き確率p(a|s)としてモデル化するか(例えば、行動クローニング(BC))、結合確率p(s, a)としてモデル化する。BCによる条件付き確率のモデル化は単純であるにもかかわらず、通常、汎化に苦労する。合同確率をモデル化することで汎化性能を向上させることができるが、推論手順には時間がかかることが多く、モデルは多様体のオーバーフィッティングに悩まされることがある。本研究では、専門家分布の条件付き確率と結合確率の両方をモデル化することで利益を得る、模倣学習の枠組みを提案する。我々の提案する拡散モデル拡張行動クローニング(DBC)は、専門家の行動をモデル化するために訓練された拡散モデルを採用し、BC損失(条件付き)と我々の提案する拡散モデル損失(合同)の両方を最適化するポリシーを学習する。DBCは、ナビゲーション、ロボットアームの操作、器用な操作、およびロコモーションにおける様々な連続制御タスクにおいて、ベースラインを上回る性能を示す。我々は、専門家分布の条件付き確率または共同確率のどちらかをモデル化することの限界を検証し、異なる生成モデルを比較するための追加実験を設計する。アブレーション研究は、我々の設計選択の有効性を正当化する。
要約(オリジナル)
Imitation learning addresses the challenge of learning by observing an expert’s demonstrations without access to reward signals from environments. Most existing imitation learning methods that do not require interacting with environments either model the expert distribution as the conditional probability p(a|s) (e.g., behavioral cloning, BC) or the joint probability p(s, a). Despite the simplicity of modeling the conditional probability with BC, it usually struggles with generalization. While modeling the joint probability can improve generalization performance, the inference procedure is often time-consuming, and the model can suffer from manifold overfitting. This work proposes an imitation learning framework that benefits from modeling both the conditional and joint probability of the expert distribution. Our proposed Diffusion Model-Augmented Behavioral Cloning (DBC) employs a diffusion model trained to model expert behaviors and learns a policy to optimize both the BC loss (conditional) and our proposed diffusion model loss (joint). DBC outperforms baselines in various continuous control tasks in navigation, robot arm manipulation, dexterous manipulation, and locomotion. We design additional experiments to verify the limitations of modeling either the conditional probability or the joint probability of the expert distribution, as well as compare different generative models. Ablation studies justify the effectiveness of our design choices.
arxiv情報
著者 | Shang-Fu Chen,Hsiang-Chun Wang,Ming-Hao Hsu,Chun-Mao Lai,Shao-Hua Sun |
発行日 | 2024-06-03 16:17:28+00:00 |
arxivサイト | arxiv_id(pdf) |