要約
逆強化学習手法は、専門家のデモンストレーションのデータセットに基づいてマルコフ決定プロセスの報酬関数を取得することを目的としています。
このようなデモンストレーションのありふれた希少性と異質なソースは、学習された報酬関数によるデータ内の偽の相関の吸収につながる可能性があります。
その結果、この適応は、環境ダイナミクスの分布シフトの下で、得られた報酬関数に基づいてポリシーがトレーニングされるときに、エキスパート データセットに対する動作の過剰適合を示すことがよくあります。
この研究では、報酬関数の一般化を改善することを目的として、因果不変原理に基づく逆強化学習法の新しい正則化アプローチを探索します。
この正則化を学習タスクの正確な定式化と近似的な定式化の両方に適用することで、転移設定で回復された報酬関数を使用してトレーニングされた場合に優れたポリシーのパフォーマンスを実証します。
要約(オリジナル)
Inverse reinforcement learning methods aim to retrieve the reward function of a Markov decision process based on a dataset of expert demonstrations. The commonplace scarcity and heterogeneous sources of such demonstrations can lead to the absorption of spurious correlations in the data by the learned reward function. Consequently, this adaptation often exhibits behavioural overfitting to the expert data set when a policy is trained on the obtained reward function under distribution shift of the environment dynamics. In this work, we explore a novel regularization approach for inverse reinforcement learning methods based on the causal invariance principle with the goal of improved reward function generalization. By applying this regularization to both exact and approximate formulations of the learning task, we demonstrate superior policy performance when trained using the recovered reward functions in a transfer setting
arxiv情報
著者 | Ivan Ovinnikov,Eugene Bykovets,Joachim M. Buhmann |
発行日 | 2024-09-12 12:56:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google