A Novel Variational Lower Bound for Inverse Reinforcement Learning

要約

逆強化学習 (IRL) は、専門家の軌跡から報酬関数を学習し、模倣やコラボレーションのタスクを理解することで、手動の報酬エンジニアリングの必要性を排除します。
ただし、未知のダイナミクスを伴う大規模で高次元の問題のコンテキストにおける IRL は、特に困難でした。
この論文では、最適性ノードを備えた確率的グラフィカル モデルのフレームワークの下で導出される、IRL の新しい変分下限 (VLB-IRL) を紹介します。
私たちの方法は、下限を最大化することによって、報酬関数と、学習した報酬関数の下でのポリシーを同時に学習します。これは、報酬関数が与えられた最適性の近似分布と、軌道が与えられた最適性の真の分布との間の逆カルバック・ライブラー発散を最小限に抑えることと同等です。
これは、学習された報酬に基づくポリシーがいくつかの既知のドメインでエキスパート レベルのパフォーマンスを達成するように、有効な報酬関数を学習する新しい IRL メソッドにつながります。
重要なのは、この方法は、学習されたポリシーからのより良い報酬を実証することにより、これらのドメインで既存の最先端の IRL アルゴリズムよりも優れたパフォーマンスを発揮することです。

要約(オリジナル)

Inverse reinforcement learning (IRL) seeks to learn the reward function from expert trajectories, to understand the task for imitation or collaboration thereby removing the need for manual reward engineering. However, IRL in the context of large, high-dimensional problems with unknown dynamics has been particularly challenging. In this paper, we present a new Variational Lower Bound for IRL (VLB-IRL), which is derived under the framework of a probabilistic graphical model with an optimality node. Our method simultaneously learns the reward function and policy under the learned reward function by maximizing the lower bound, which is equivalent to minimizing the reverse Kullback-Leibler divergence between an approximated distribution of optimality given the reward function and the true distribution of optimality given trajectories. This leads to a new IRL method that learns a valid reward function such that the policy under the learned reward achieves expert-level performance on several known domains. Importantly, the method outperforms the existing state-of-the-art IRL algorithms on these domains by demonstrating better reward from the learned policy.

arxiv情報

著者 Yikang Gui,Prashant Doshi
発行日 2023-11-10 13:26:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク