要約
ベイジアン逆強化学習 (IRL) の目標は、学習者にとって未知の報酬を最適化する専門家による一連のデモンストレーションを使用して、報酬関数の事後分布を回復することです。
結果として得られる事後超過報酬を使用して、同じまたは類似のタスクで良好に実行する見習いポリシーを合成できます。
ベイジアン IRL の主な課題は、考えられる報酬の仮説空間と、多くの場合 Q 値の観点から定義される尤度の間の計算上のギャップを埋めることです。バニラ ベイジアン IRL は、コストのかかるフォワード プランニング問題 (報酬から Q 値に至るまで) を解決する必要があります。
アルゴリズムの各ステップで、これを何千回も実行する必要がある場合があります。
私たちは、単純な変更によってこれを解決することを提案します。Q 値から報酬までに必要な計算は大幅に増加するため、主に報酬の空間でのサンプリングに焦点を当てるのではなく、主に Q 値の空間での作業に焦点を当てることができます。
安い。
さらに、この計算の反転により、勾配の計算が容易になり、ハミルトニアン モンテカルロを使用した効率的なサンプリングが可能になります。
私たちは、この洞察に基づいた新しいマルコフ連鎖モンテカルロ法である ValueWalk を提案し、いくつかのタスクにおけるその利点を説明します。
要約(オリジナル)
The goal of Bayesian inverse reinforcement learning (IRL) is recovering a posterior distribution over reward functions using a set of demonstrations from an expert optimizing for a reward unknown to the learner. The resulting posterior over rewards can then be used to synthesize an apprentice policy that performs well on the same or a similar task. A key challenge in Bayesian IRL is bridging the computational gap between the hypothesis space of possible rewards and the likelihood, often defined in terms of Q values: vanilla Bayesian IRL needs to solve the costly forward planning problem – going from rewards to the Q values – at every step of the algorithm, which may need to be done thousands of times. We propose to solve this by a simple change: instead of focusing on primarily sampling in the space of rewards, we can focus on primarily working in the space of Q-values, since the computation required to go from Q-values to reward is radically cheaper. Furthermore, this reversion of the computation makes it easy to compute the gradient allowing efficient sampling using Hamiltonian Monte Carlo. We propose ValueWalk – a new Markov chain Monte Carlo method based on this insight – and illustrate its advantages on several tasks.
arxiv情報
著者 | Ondrej Bajgar,Alessandro Abate,Konstantinos Gatsis,Michael A. Osborne |
発行日 | 2024-07-15 17:59:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google