Inverse Reinforcement Learning with Multiple Planning Horizons

要約

この研究では、専門家が共有の報酬関数に基づいて計画を立てていますが、異なる未知の計画範囲で計画を立てている逆強化学習 (IRL) 問題を研究します。
割引係数の知識がなければ、報酬関数にはより大きな実現可能な解セットが含まれるため、既存の IRL アプローチでは報酬関数を特定することが困難になります。
この課題を克服するために、エキスパート ポリシーを再構築するエージェント固有の割引係数を使用して、グローバルなマルチエージェント報酬関数を学習できるアルゴリズムを開発しました。
両方のアルゴリズムの報酬関数と割引係数の実現可能な解空間を特徴付け、複数のドメインにわたる学習された報酬関数の一般化可能性を実証します。

要約(オリジナル)

In this work, we study an inverse reinforcement learning (IRL) problem where the experts are planning under a shared reward function but with different, unknown planning horizons. Without the knowledge of discount factors, the reward function has a larger feasible solution set, which makes it harder for existing IRL approaches to identify a reward function. To overcome this challenge, we develop algorithms that can learn a global multi-agent reward function with agent-specific discount factors that reconstruct the expert policies. We characterize the feasible solution space of the reward function and discount factors for both algorithms and demonstrate the generalizability of the learned reward function across multiple domains.

arxiv情報

著者 Jiayu Yao,Weiwei Pan,Finale Doshi-Velez,Barbara E Engelhardt
発行日 2024-09-26 16:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク