要約
強化学習は、複雑な動作を生成することに大きな成功を収めていますが、多くの場合、広範な報酬関数エンジニアリングが必要になります。
模倣学習と逆強化学習の敵対的バリアントは、弁別器を介して専門家のデモンストレーションからポリシーを学習することで代替手段を提供します。
ディスクリミネーターを使用すると、標準的なアプローチよりもデータ効率と計算効率が向上します。
ただし、専門家データの不完全性に対して敏感になります。
私たちは、不完全データに対する堅牢性と効率性を両立した教師・生徒システム「RILe」を提案します。
RILe では、生徒は行動ポリシーを学習し、教師は生徒のパフォーマンスと専門家のデモンストレーションとの整合性に基づいて報酬関数を動的に調整します。
学生と専門家の両方のパフォーマンスの類似性に報酬関数を調整することにより、私たちのシステムは弁別器への依存を減らし、データの不完全性に対する堅牢性を高めます。
実験では、限られた、またはノイズの多い専門家データの設定において、RILe が既存の手法よりも 2 倍優れたパフォーマンスを発揮することが示されています。
要約(オリジナル)
Reinforcement Learning has achieved significant success in generating complex behavior but often requires extensive reward function engineering. Adversarial variants of Imitation Learning and Inverse Reinforcement Learning offer an alternative by learning policies from expert demonstrations via a discriminator. Employing discriminators increases their data- and computational efficiency over the standard approaches; however, results in sensitivity to imperfections in expert data. We propose RILe, a teacher-student system that achieves both robustness to imperfect data and efficiency. In RILe, the student learns an action policy while the teacher dynamically adjusts a reward function based on the student’s performance and its alignment with expert demonstrations. By tailoring the reward function to both performance of the student and expert similarity, our system reduces dependence on the discriminator and, hence, increases robustness against data imperfections. Experiments show that RILe outperforms existing methods by 2x in settings with limited or noisy expert data.
arxiv情報
著者 | Mert Albaba,Sammy Christen,Christoph Gebhardt,Thomas Langarek,Michael J. Black,Otmar Hilliges |
発行日 | 2024-06-12 17:56:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google