Offline Inverse RL: New Solution Concepts and Provably Efficient Algorithms

要約

逆強化学習 (IRL) は、行動のデモンストレーションから熟練エージェントの報酬関数を回復することを目的としています。
IRL 問題は基本的に不適切であることはよく知られています。つまり、多くの報酬関数で実証を説明できます。
このため、IRL は最近、実現可能な報酬セットの推定という観点から再構築され、単一の報酬の選択が延期されました。
しかし、これまでのところ、利用可能な定式化とアルゴリズムによる解決策は、主に学習者が環境と対話し、専門家に意のままに質問できるオンライン環境向けに提案および分析されてきました。
これは、オフライン データセットの利用がはるかに一般的なシナリオであるほとんどの実際のアプリケーションでは明らかに非現実的です。
この論文では、オフライン設定の機会と限界を捉えた実現可能な報酬セットの新しい概念を導入し、その推定の複雑さを分析します。
そのためには、データ範囲を制御できない設定の本質的な難しさに対処する独自の学習フレームワークの導入が必要です。
次に、この問題に対処するために、計算的および統計的に効率的な 2 つのアルゴリズム、IRLO および PIRLO を提案します。
特に、後者は、提供される実行可能セットの包含単調性という新しい望ましい特性を強制するために、特定の形式の悲観主義を採用します。
この研究では、オフライン IRL 問題の課題と、それらにどのように効果的に対処できるかについての概要を提供することを目指しています。

要約(オリジナル)

Inverse reinforcement learning (IRL) aims to recover the reward function of an expert agent from demonstrations of behavior. It is well known that the IRL problem is fundamentally ill-posed, i.e., many reward functions can explain the demonstrations. For this reason, IRL has been recently reframed in terms of estimating the feasible reward set, thus, postponing the selection of a single reward. However, so far, the available formulations and algorithmic solutions have been proposed and analyzed mainly for the online setting, where the learner can interact with the environment and query the expert at will. This is clearly unrealistic in most practical applications, where the availability of an offline dataset is a much more common scenario. In this paper, we introduce a novel notion of feasible reward set capturing the opportunities and limitations of the offline setting and we analyze the complexity of its estimation. This requires the introduction an original learning framework that copes with the intrinsic difficulty of the setting, for which the data coverage is not under control. Then, we propose two computationally and statistically efficient algorithms, IRLO and PIRLO, for addressing the problem. In particular, the latter adopts a specific form of pessimism to enforce the novel desirable property of inclusion monotonicity of the delivered feasible set. With this work, we aim to provide a panorama of the challenges of the offline IRL problem and how they can be fruitfully addressed.

arxiv情報

著者 Filippo Lazzati,Mirco Mutti,Alberto Maria Metelli
発行日 2024-02-23 15:49:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク