Active Exploration for Inverse Reinforcement Learning

要約

逆強化学習 (IRL) は、専門家のデモンストレーションから報酬関数を推測するための強力なパラダイムです。
多くの IRL アルゴリズムは、既知の遷移モデルを必要とし、場合によっては既知のエキスパート ポリシーを必要とするか、少なくとも生成モデルへのアクセスを必要とします。
ただし、これらの仮定は、連続した対話によってのみ環境にアクセスできる多くの現実世界のアプリケーションにとっては強すぎます。
我々は、新しい IRL アルゴリズムである逆強化学習のアクティブ探索 (AceIRL) を提案します。これは、未知の環境とエキスパート ポリシーを積極的に探索して、エキスパートの報酬関数を迅速に学習し、適切なポリシーを特定します。
AceIRL は、以前の観察を使用して、もっともらしい報酬関数を捕捉する信頼区間を構築し、環境の最も有益な領域に焦点を当てた探索ポリシーを見つけます。
AceIRL は、環境の生成モデルを必要としない、サンプル複雑さの限界を備えたアクティブ IRL への最初のアプローチです。
AceIRL は、最悪の場合、アクティブな IRL のサンプルの複雑さを生成モデルと一致させます。
さらに、AceIRL のサンプルの複雑さを特定の IRL 問題の準最適性ギャップに関連付ける問題依存の限界を確立します。
私たちはシミュレーションで AceIRL を経験的に評価し、それがより単純な探索戦略よりも大幅に優れていることを発見しました。

要約(オリジナル)

Inverse Reinforcement Learning (IRL) is a powerful paradigm for inferring a reward function from expert demonstrations. Many IRL algorithms require a known transition model and sometimes even a known expert policy, or they at least require access to a generative model. However, these assumptions are too strong for many real-world applications, where the environment can be accessed only through sequential interaction. We propose a novel IRL algorithm: Active exploration for Inverse Reinforcement Learning (AceIRL), which actively explores an unknown environment and expert policy to quickly learn the expert’s reward function and identify a good policy. AceIRL uses previous observations to construct confidence intervals that capture plausible reward functions and find exploration policies that focus on the most informative regions of the environment. AceIRL is the first approach to active IRL with sample-complexity bounds that does not require a generative model of the environment. AceIRL matches the sample complexity of active IRL with a generative model in the worst case. Additionally, we establish a problem-dependent bound that relates the sample complexity of AceIRL to the suboptimality gap of a given IRL problem. We empirically evaluate AceIRL in simulations and find that it significantly outperforms more naive exploration strategies.

arxiv情報

著者 David Lindner,Andreas Krause,Giorgia Ramponi
発行日 2023-08-22 14:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク