要約
模倣学習は、明示的な報酬信号なしに専門家の行動を模倣することを目的としている。静的な専門家データセットを用いる受動的な模倣学習法は、一般に複合エラー、低いサンプル効率、高いハイパーパラメータ感度に悩まされている。これに対して、能動的模倣学習法は、専門家の介入を仰ぐことでその制約を解決する。しかし、最近の能動的模倣学習法は、理論的な保証がなく、人間の直感や経験則に基づいて設計されている。本論文では、教師と生徒の相互作用モデルに基づく新しい能動的模倣学習フレームワークを提案する。このフレームワークでは、教師の目標は、最適な教授行動を特定し、生徒の学習プロセスに積極的に影響を与えることにある。このフレームワークの最適化目標を解くことで、AdapMenと名づけた実用的な実装を提案する。理論的な分析により、AdapMenは穏やかな条件下で誤差境界を改善し、複合誤差を回避できることが示された。MetaDriveベンチマークとAtari2600ゲームでの実験により、理論的な分析が検証され、我々の方法が、従来の方法よりもはるかに少ない専門家の関与と総サンプリングステップで専門家に近い性能を達成することが示される。コードは https://github.com/liuxhym/AdapMen で公開されています。
要約(オリジナル)
Imitation learning aims to mimic the behavior of experts without explicit reward signals. Passive imitation learning methods which use static expert datasets typically suffer from compounding error, low sample efficiency, and high hyper-parameter sensitivity. In contrast, active imitation learning methods solicit expert interventions to address the limitations. However, recent active imitation learning methods are designed based on human intuitions or empirical experience without theoretical guarantee. In this paper, we propose a novel active imitation learning framework based on a teacher-student interaction model, in which the teacher’s goal is to identify the best teaching behavior and actively affect the student’s learning process. By solving the optimization objective of this framework, we propose a practical implementation, naming it AdapMen. Theoretical analysis shows that AdapMen can improve the error bound and avoid compounding error under mild conditions. Experiments on the MetaDrive benchmark and Atari 2600 games validate our theoretical analysis and show that our method achieves near-expert performance with much less expert involvement and total sampling steps than previous methods. The code is available at https://github.com/liuxhym/AdapMen.
arxiv情報
著者 | Xu-Hui Liu,Feng Xu,Xinyu Zhang,Tianyuan Liu,Shengyi Jiang,Ruifeng Chen,Zongzhang Zhang,Yang Yu |
発行日 | 2023-03-03 16:44:33+00:00 |
arxivサイト | arxiv_id(pdf) |