要約
複雑な行動を獲得することは人工知能エージェントにとって不可欠であるが、高次元設定においてこれらの行動を学習することは、膨大な探索空間のために大きな挑戦となる。従来の強化学習(RL)では、報酬関数設計に膨大な手作業が必要でした。逆強化学習(IRL)は、専門家のデモンストレーションから報酬関数を発見するが、しばしば計算コストのかかる反復プロセスに依存する。模倣学習(IL)は、エージェントの行動を専門家の実演と直接比較することで、より効率的な代替手段を提供するが、高次元環境では、このような直接比較は効果的な学習のための十分なフィードバックを提供しない。我々は、模倣学習と逆強化学習の長所を組み合わせ、高次元タスクにおいて密な報酬関数を効率的に学習し、強力なパフォーマンスを達成するフレームワークであるRILe(Reinforced Imitation Learning)を紹介する。RILeは、トレーナーと生徒という新しい枠組みを採用している。トレーナーは適応的な報酬関数を学習し、生徒はこの報酬信号を用いて専門家の行動を模倣する。生徒が進化するにつれてトレーナーのガイダンスを動的に調整することで、トレーナーは学習の様々な段階にわたって微妙なフィードバックを提供する。我々のフレームワークは、直接の模倣では複雑な行動を再現できないような高次元のタスクにおいて、高性能なポリシーを生成する。我々はRILeを難易度の高いロボット運動タスクで検証し、RILeが既存の手法を大幅に上回り、複数の設定において熟練者に近いパフォーマンスを達成することを実証する。
要約(オリジナル)
Acquiring complex behaviors is essential for artificially intelligent agents, yet learning these behaviors in high-dimensional settings poses a significant challenge due to the vast search space. Traditional reinforcement learning (RL) requires extensive manual effort for reward function engineering. Inverse reinforcement learning (IRL) uncovers reward functions from expert demonstrations but relies on an iterative process that is often computationally expensive. Imitation learning (IL) provides a more efficient alternative by directly comparing an agent’s actions to expert demonstrations; however, in high-dimensional environments, such direct comparisons offer insufficient feedback for effective learning. We introduce RILe (Reinforced Imitation Learning), a framework that combines the strengths of imitation learning and inverse reinforcement learning to learn a dense reward function efficiently and achieve strong performance in high-dimensional tasks. RILe employs a novel trainer-student framework: the trainer learns an adaptive reward function, and the student uses this reward signal to imitate expert behaviors. By dynamically adjusting its guidance as the student evolves, the trainer provides nuanced feedback across different phases of learning. Our framework produces high-performing policies in high-dimensional tasks where direct imitation fails to replicate complex behaviors. We validate RILe in challenging robotic locomotion tasks, demonstrating that it significantly outperforms existing methods and achieves near-expert performance across multiple settings.
arxiv情報
著者 | Mert Albaba,Sammy Christen,Thomas Langarek,Christoph Gebhardt,Otmar Hilliges,Michael J. Black |
発行日 | 2025-02-03 13:57:58+00:00 |
arxivサイト | arxiv_id(pdf) |