Towards Theoretical Understanding of Inverse Reinforcement Learning

要約

タイトル: Inverse Reinforcement Learningの理論的理解への一歩
要約:
– Inverse reinforcement learning (IRL)は、専門家エージェントの行動を正当化する報酬関数を回復するための強力なアルゴリズムの一族を指す。
– IRLのよく知られた制限は、観察された行動を説明する複数の報酬が存在するため、報酬関数の選択におけるあいまいさである。
– 最近、IRLを実現可能な報酬セットの推定問題、つまり専門家の行動と矛盾しない報酬の領域を推定する問題として定式化することで、この制限を回避することができた。
– 本論文では、生成モデルを使用した有限時間問題におけるIRLの理論的溝埋めに一歩を踏み出します。
– まず、実現可能な報酬セットの推定問題、対応するPAC要件の形式的導入、および特定のクラスの報酬の特性について議論します。
– 次に、推定可能な報酬セットのサンプル複雑性の最初の最小限界を提供し、注文${\Omega}\Bigl( \frac{H^3SA}{\epsilon^2} \bigl( \log \bigl(\frac{1}{\delta}\bigl) + S \bigl)\Bigl)$にプロ​​ットされます。
– 次に、一致する上限バウンドを証明する一様サンプリング戦略(US-IRL)のサンプル複雑性を分析します。
– 最後に、IRLのいくつかのオープンな問題を概説し、将来の研究方向を提案します。

要約(オリジナル)

Inverse reinforcement learning (IRL) denotes a powerful family of algorithms for recovering a reward function justifying the behavior demonstrated by an expert agent. A well-known limitation of IRL is the ambiguity in the choice of the reward function, due to the existence of multiple rewards that explain the observed behavior. This limitation has been recently circumvented by formulating IRL as the problem of estimating the feasible reward set, i.e., the region of the rewards compatible with the expert’s behavior. In this paper, we make a step towards closing the theory gap of IRL in the case of finite-horizon problems with a generative model. We start by formally introducing the problem of estimating the feasible reward set, the corresponding PAC requirement, and discussing the properties of particular classes of rewards. Then, we provide the first minimax lower bound on the sample complexity for the problem of estimating the feasible reward set of order ${\Omega}\Bigl( \frac{H^3SA}{\epsilon^2} \bigl( \log \bigl(\frac{1}{\delta}\bigl) + S \bigl)\Bigl)$, being $S$ and $A$ the number of states and actions respectively, $H$ the horizon, $\epsilon$ the desired accuracy, and $\delta$ the confidence. We analyze the sample complexity of a uniform sampling strategy (US-IRL), proving a matching upper bound up to logarithmic factors. Finally, we outline several open questions in IRL and propose future research directions.

arxiv情報

著者 Alberto Maria Metelli,Filippo Lazzati,Marcello Restelli
発行日 2023-04-25 16:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク