要約
オフライン モデルベースの逆強化学習 (IRL) へのベイジアン アプローチを検討します。
提案されたフレームワークは、専門家の報酬関数と環境ダイナミクスの主観的モデルの同時推定を実行するという点で、既存のオフライン モデルベースの IRL アプローチとは異なります。
私たちは、専門家の環境モデルがどの程度正確であるかをパラメータ化する事前分布のクラスを利用して、高次元設定における専門家の報酬と主観的ダイナミクスを推定する効率的なアルゴリズムを開発します。
私たちの分析により、専門家が高精度の環境モデルを持っていると(アプリオリに)信じられている場合、推定されたポリシーは堅牢なパフォーマンスを示すという新しい洞察が明らかになりました。
私たちはこの観察を MuJoCo 環境で検証し、私たちのアルゴリズムが最先端のオフライン IRL アルゴリズムよりも優れていることを示しました。
要約(オリジナル)
We consider a Bayesian approach to offline model-based inverse reinforcement learning (IRL). The proposed framework differs from existing offline model-based IRL approaches by performing simultaneous estimation of the expert’s reward function and subjective model of environment dynamics. We make use of a class of prior distributions which parameterizes how accurate the expert’s model of the environment is to develop efficient algorithms to estimate the expert’s reward and subjective dynamics in high-dimensional settings. Our analysis reveals a novel insight that the estimated policy exhibits robust performance when the expert is believed (a priori) to have a highly accurate model of the environment. We verify this observation in the MuJoCo environments and show that our algorithms outperform state-of-the-art offline IRL algorithms.
arxiv情報
著者 | Ran Wei,Siliang Zeng,Chenliang Li,Alfredo Garcia,Anthony McDonald,Mingyi Hong |
発行日 | 2023-09-15 17:37:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google