RILe: Reinforced Imitation Learning

要約

複雑な行動を取得することは、人為的にインテリジェントなエージェントに不可欠ですが、高次元の設定でこれらの動作を学ぶことは、広大な検索スペースのために重要な課題をもたらします。
従来の強化学習(RL)には、報酬機能エンジニアリングのための広範な手動努力が必要です。
逆強化学習(IRL)は、専門家のデモンストレーションから報酬機能を明らかにしますが、多くの場合計算上の高価な反復プロセスに依存しています。
模倣学習(IL)は、エージェントのアクションを専門家のデモンストレーションと直接比較することにより、より効率的な代替手段を提供します。
ただし、高次元の環境では、このような直接的な比較は、多くの場合、効果的な学習のために不十分なフィードバックを提供します。
Rile(強化模倣学習)を紹介します。これは、模倣学習と逆補強学習の強みを組み合わせて、高次元のタスクで高密度の報酬機能を学習し、強力なパフォーマンスを達成するための逆補強学習です。
Rileは新しいトレーナーと学生のフレームワークを採用しています。トレーナーは適応的な報酬機能を学び、学生はこの報酬信号を使用して専門家の行動を模倣します。
学生が進化するにつれてガイダンスを動的に調整することにより、トレーナーは学習のさまざまな段階で微妙なフィードバックを提供します。
私たちのフレームワークは、直接的な模倣が複雑な動作を再現できない高次元のタスクで高性能のポリシーを生成します。
挑戦的なロボットの移動タスクでRileを検証し、既存の方法を大幅に上回り、複数の設定にわたってExpertに近いパフォーマンスを達成することを示しています。

要約(オリジナル)

Acquiring complex behaviors is essential for artificially intelligent agents, yet learning these behaviors in high-dimensional settings poses a significant challenge due to the vast search space. Traditional reinforcement learning (RL) requires extensive manual effort for reward function engineering. Inverse reinforcement learning (IRL) uncovers reward functions from expert demonstrations but relies on an iterative process that is often computationally expensive. Imitation learning (IL) provides a more efficient alternative by directly comparing an agent’s actions to expert demonstrations; however, in high-dimensional environments, such direct comparisons often offer insufficient feedback for effective learning. We introduce RILe (Reinforced Imitation Learning), a framework that combines the strengths of imitation learning and inverse reinforcement learning to learn a dense reward function efficiently and achieve strong performance in high-dimensional tasks. RILe employs a novel trainer-student framework: the trainer learns an adaptive reward function, and the student uses this reward signal to imitate expert behaviors. By dynamically adjusting its guidance as the student evolves, the trainer provides nuanced feedback across different phases of learning. Our framework produces high-performing policies in high-dimensional tasks where direct imitation fails to replicate complex behaviors. We validate RILe in challenging robotic locomotion tasks, demonstrating that it significantly outperforms existing methods and achieves near-expert performance across multiple settings.

arxiv情報

著者 Mert Albaba,Sammy Christen,Thomas Langarek,Christoph Gebhardt,Otmar Hilliges,Michael J. Black
発行日 2025-04-21 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク