Misspecification in Inverse Reinforcement Learning

要約

逆強化学習 (IRL) の目的は、ポリシー $\pi$ から報酬関数 $R$ を推測することです。
これを行うには、$\pi$ が $R$ にどのように関係するかのモデルが必要です。
現在の文献では、最も一般的なモデルは、最適性、ボルツマン合理性、および因果的エントロピー最大化です。
IRL の背後にある主な動機の 1 つは、人間の行動から人間の好みを推測することです。
ただし、人間の好みと人間の行動との真の関係は、現在 IRL で使用されているどのモデルよりもはるかに複雑です。
これは、それらが誤って指定されていることを意味し、現実世界のデータに適用された場合、不健全な推論につながる可能性があるという懸念が生じます.
この論文では、さまざまな IRL モデルが誤指定に対してどれほど堅牢であるかについての数学的分析を提供し、そのモデルが報酬関数 $R$ に関する誤った推論につながる前に、デモンストレーター ポリシーが各標準モデルとどのように異なる可能性があるかを正確に答えます。
また、IRL の仕様ミスについて推論するためのフレームワークと、新しい IRL モデルの仕様ミスの堅牢性を簡単に導き出すために使用できる正式なツールも紹介します。

要約(オリジナル)

The aim of Inverse Reinforcement Learning (IRL) is to infer a reward function $R$ from a policy $\pi$. To do this, we need a model of how $\pi$ relates to $R$. In the current literature, the most common models are optimality, Boltzmann rationality, and causal entropy maximisation. One of the primary motivations behind IRL is to infer human preferences from human behaviour. However, the true relationship between human preferences and human behaviour is much more complex than any of the models currently used in IRL. This means that they are misspecified, which raises the worry that they might lead to unsound inferences if applied to real-world data. In this paper, we provide a mathematical analysis of how robust different IRL models are to misspecification, and answer precisely how the demonstrator policy may differ from each of the standard models before that model leads to faulty inferences about the reward function $R$. We also introduce a framework for reasoning about misspecification in IRL, together with formal tools that can be used to easily derive the misspecification robustness of new IRL models.

arxiv情報

著者 Joar Skalse,Alessandro Abate
発行日 2023-03-24 12:04:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク