要約
強化学習は、複雑な動作を生成することに大きな成功を収めていますが、多くの場合、広範な報酬関数エンジニアリングが必要になります。
模倣学習と逆強化学習の敵対的バリアントは、弁別器を介して専門家のデモンストレーションからポリシーを学習することで代替手段を提供します。
ただし、これらの方法は、専門家のような動作をランダムにサンプリングすることが困難な複雑なタスクでは困難を伴います。
この制限は、ポリシーに依存しない識別子に依存していることに起因しており、特にタスクの複雑さが増し、専門家の行動がより明確になるにつれて、エージェントの改善のためのガイダンスが不十分になります。
RILe (強化模倣学習環境) を紹介します。これは、生徒のパフォーマンスと専門家のデモンストレーションとの連携に基づいて動的な報酬関数を学習する、新しいトレーナーと生徒のシステムです。
RILe では、学生が行動ポリシーを学習する一方で、トレーナーは強化学習を使用して、識別子のフィードバックを通じて自身を継続的に更新し、学生と専門家の調整を最適化します。
トレーナーは、ディスクリミネーターからの長期的な累積報酬を最適化し、タスクの複雑さと生徒の現在の能力を考慮した微妙なフィードバックを提供できるようにします。
このアプローチでは、専門家/非専門家という二元的な分類ではなく、段階的なフィードバックを提供することで、エージェントのアクションをより詳しく調査することができます。
RILe は、ポリシーに依存しないディスクリミネーターへの依存を減らすことで、従来の方法ではうまくいかない複雑な設定でのパフォーマンスの向上を可能にし、複雑なシミュレートされたロボット移動タスクにおいて既存の方法を 2 倍上回るパフォーマンスを実現します。
要約(オリジナル)
Reinforcement Learning has achieved significant success in generating complex behavior but often requires extensive reward function engineering. Adversarial variants of Imitation Learning and Inverse Reinforcement Learning offer an alternative by learning policies from expert demonstrations via a discriminator. However, these methods struggle in complex tasks where randomly sampling expert-like behaviors is challenging. This limitation stems from their reliance on policy-agnostic discriminators, which provide insufficient guidance for agent improvement, especially as task complexity increases and expert behavior becomes more distinct. We introduce RILe (Reinforced Imitation Learning environment), a novel trainer-student system that learns a dynamic reward function based on the student’s performance and alignment with expert demonstrations. In RILe, the student learns an action policy while the trainer, using reinforcement learning, continuously updates itself via the discriminator’s feedback to optimize the alignment between the student and the expert. The trainer optimizes for long-term cumulative rewards from the discriminator, enabling it to provide nuanced feedback that accounts for the complexity of the task and the student’s current capabilities. This approach allows for greater exploration of agent actions by providing graduated feedback rather than binary expert/non-expert classifications. By reducing dependence on policy-agnostic discriminators, RILe enables better performance in complex settings where traditional methods falter, outperforming existing methods by 2x in complex simulated robot-locomotion tasks.
arxiv情報
著者 | Mert Albaba,Sammy Christen,Thomas Langarek,Christoph Gebhardt,Otmar Hilliges,Michael J. Black |
発行日 | 2024-10-21 17:59:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google