Quantifying the Sensitivity of Inverse Reinforcement Learning to Misspecification

要約

逆強化学習 (IRL) は、エージェントの行動 (ポリシー $\pi$ として表される) からエージェントの好み (報酬関数 $R$ として表される) を推測することを目的としています。
これを行うには、$\pi$ が $R$ にどのように関係するかの動作モデルが必要です。
現在の文献では、最も一般的な行動モデルは、最適性、ボルツマン合理性、および因果エントロピー最大化です。
ただし、人間の好みと行動の間の本当の関係は、これらの行動モデルよりもはるかに複雑です。
これは、動作モデルの指定が間違っていることを意味し、実際のデータに適用すると系統的エラーが発生する可能性があるという懸念が生じます。
この論文では、IRL 問題が動作モデルの仕様の誤りに対してどの程度敏感であるかを分析します。
具体的には、所定のしきい値を超える誤差を発生させることなく、観察されたデータが想定される動作モデルとどのように異なるかを完全に特徴付ける必要十分条件を提供します。
これに加えて、観察されたポリシーの小さな変動に対して動作モデルが堅牢である条件も特徴付け、多くの動作モデルがパラメータ値 (割引率など) の誤った指定に対してどの程度堅牢であるかを分析します。
私たちの分析は、非常に軽度の仕様ミスが推論された報酬関数に非常に大きなエラーを引き起こす可能性があるという意味で、IRL 問題は仕様ミスに非常に敏感であることを示唆しています。

要約(オリジナル)

Inverse reinforcement learning (IRL) aims to infer an agent’s preferences (represented as a reward function $R$) from their behaviour (represented as a policy $\pi$). To do this, we need a behavioural model of how $\pi$ relates to $R$. In the current literature, the most common behavioural models are optimality, Boltzmann-rationality, and causal entropy maximisation. However, the true relationship between a human’s preferences and their behaviour is much more complex than any of these behavioural models. This means that the behavioural models are misspecified, which raises the concern that they may lead to systematic errors if applied to real data. In this paper, we analyse how sensitive the IRL problem is to misspecification of the behavioural model. Specifically, we provide necessary and sufficient conditions that completely characterise how the observed data may differ from the assumed behavioural model without incurring an error above a given threshold. In addition to this, we also characterise the conditions under which a behavioural model is robust to small perturbations of the observed policy, and we analyse how robust many behavioural models are to misspecification of their parameter values (such as e.g.\ the discount rate). Our analysis suggests that the IRL problem is highly sensitive to misspecification, in the sense that very mild misspecification can lead to very large errors in the inferred reward function.

arxiv情報

著者 Joar Skalse,Alessandro Abate
発行日 2024-03-11 16:09:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク