要約
逆強化学習 (IRL) 技術は、根底にある未知のタスクにおいて最適に動作すると想定されるエキスパート エージェントの動作を説明する報酬関数を推定する問題を扱います。
ただし、いくつかの興味深い問題では、最適性の度合いが異なる複数の専門家の動作を観察することができます (例: アマチュアからプロまでスキルの範囲が異なるレーシング ドライバー)。
このため、この研究では、最適なエージェントからのデモンストレーションに加えて、複数の準最適なエキスパートの動作を観察できる問題に IRL 定式化を拡張します。
この問題を考慮して、最初に、与えられた専門家のセット、つまり実現可能な報酬セットと互換性のある報酬関数のクラスの理論的特性を研究します。
私たちの結果は、最適ではない専門家が複数存在すると、互換性のある報酬のセットが大幅に縮小する可能性があることを示しています。
さらに、生成モデルを使用して実現可能な報酬セットを推定する際の統計的な複雑さを研究します。
この目的を達成するために、最適ではないエキスパートのパフォーマンス レベルが最適エージェントのパフォーマンス レベルに十分に近い場合に常にミニマックス最適となる均一サンプリング アルゴリズムを分析します。
要約(オリジナル)
Inverse Reinforcement Learning (IRL) techniques deal with the problem of deducing a reward function that explains the behavior of an expert agent who is assumed to act optimally in an underlying unknown task. In several problems of interest, however, it is possible to observe the behavior of multiple experts with different degree of optimality (e.g., racing drivers whose skills ranges from amateurs to professionals). For this reason, in this work, we extend the IRL formulation to problems where, in addition to demonstrations from the optimal agent, we can observe the behavior of multiple sub-optimal experts. Given this problem, we first study the theoretical properties of the class of reward functions that are compatible with a given set of experts, i.e., the feasible reward set. Our results show that the presence of multiple sub-optimal experts can significantly shrink the set of compatible rewards. Furthermore, we study the statistical complexity of estimating the feasible reward set with a generative model. To this end, we analyze a uniform sampling algorithm that results in being minimax optimal whenever the sub-optimal experts’ performance level is sufficiently close to the one of the optimal agent.
arxiv情報
著者 | Riccardo Poiani,Gabriele Curti,Alberto Maria Metelli,Marcello Restelli |
発行日 | 2024-01-08 12:39:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google