Diffusion-Reward Adversarial Imitation Learning

要約

模倣学習は、環境からの報酬信号にアクセスせずに、専門家のデモンストレーションを観察することでポリシーを学習することを目的としています。
生成的敵対的模倣学習 (GAIL) は、模倣学習を敵対的学習として定式化し、エキスパートの行動を模倣するジェネレーターポリシー学習と、エージェントの軌跡からエキスパートのデモンストレーションを区別するディスクリミネーター学習を採用します。
有望な結果にもかかわらず、GAIL トレーニングは脆弱で不安定なことがよくあります。
生成モデリングにおける最近の拡散モデルの優勢に触発されて、私たちは拡散報酬敵対的模倣学習 (DRAIL) を提案します。これは、拡散モデルを GAIL に統合し、ポリシー学習に対してより堅牢でスムーズな報酬を生み出すことを目的としています。
具体的には、強化された識別器を構築するための拡散識別分類器を提案し、ポリシー学習のための分類器の出力に基づいて拡散報酬を設計します。
ナビゲーション、操作、移動に関して広範な実験が行われ、以前の模倣学習方法と比較して DRAIL の有効性が検証されています。
さらに、追加の実験結果は、DRAIL の一般化可能性とデータ効率を実証しています。
GAIL と DRAIL の視覚化された学習報酬関数は、DRAIL がより堅牢でスムーズな報酬を生成できることを示唆しています。
プロジェクトページ：https://nturobotlearninglab.github.io/DRAIL/

要約(オリジナル)

Imitation learning aims to learn a policy from observing expert demonstrations without access to reward signals from environments. Generative adversarial imitation learning (GAIL) formulates imitation learning as adversarial learning, employing a generator policy learning to imitate expert behaviors and discriminator learning to distinguish the expert demonstrations from agent trajectories. Despite its encouraging results, GAIL training is often brittle and unstable. Inspired by the recent dominance of diffusion models in generative modeling, we propose Diffusion-Reward Adversarial Imitation Learning (DRAIL), which integrates a diffusion model into GAIL, aiming to yield more robust and smoother rewards for policy learning. Specifically, we propose a diffusion discriminative classifier to construct an enhanced discriminator, and design diffusion rewards based on the classifier’s output for policy learning. Extensive experiments are conducted in navigation, manipulation, and locomotion, verifying DRAIL’s effectiveness compared to prior imitation learning methods. Moreover, additional experimental results demonstrate the generalizability and data efficiency of DRAIL. Visualized learned reward functions of GAIL and DRAIL suggest that DRAIL can produce more robust and smoother rewards. Project page: https://nturobotlearninglab.github.io/DRAIL/

arxiv情報

著者	Chun-Mao Lai,Hsiang-Chun Wang,Ping-Chun Hsieh,Yu-Chiang Frank Wang,Min-Hung Chen,Shao-Hua Sun
発行日	2024-10-22 02:06:35+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Diffusion-Reward Adversarial Imitation Learning

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー