要約
逆強化学習 (IRL) アルゴリズムは、多くの場合、(順方向) 強化学習または特定の期間にわたる計画に依存して、仮説上の報酬関数に対してほぼ最適なポリシーを計算し、このポリシーを専門家のデモンストレーションと照合します。
時間軸は、報酬推定の精度と IRL アルゴリズムの計算効率の両方を決定する上で重要な役割を果たします。
興味深いことに、 \emph{有効期間} がグラウンドトゥルース値よりも短いと、より良い結果がより早く得られることがよくあります。
この研究では、この現象を正式に分析し、説明を提供します。タイムホライズンは、誘導されたポリシークラスの複雑さを制御し、限られたデータによる過剰適合を軽減します。
この分析は、IRL の有効期間を原則に基づいて選択するためのガイドとして機能します。
また、これは古典的な IRL 定式化を再検討するよう促します。与えられた期間で報酬だけを学ぶよりも、報酬と有効期間を一緒に学習する方が自然です。
発見結果を検証するために、交差検証拡張を実装し、実験結果により理論的分析が確認されました。
要約(オリジナル)
Inverse reinforcement learning (IRL) algorithms often rely on (forward) reinforcement learning or planning over a given time horizon to compute an approximately optimal policy for a hypothesized reward function and then match this policy with expert demonstrations. The time horizon plays a critical role in determining both the accuracy of reward estimates and the computational efficiency of IRL algorithms. Interestingly, an \emph{effective time horizon} shorter than the ground-truth value often produces better results faster. This work formally analyzes this phenomenon and provides an explanation: the time horizon controls the complexity of an induced policy class and mitigates overfitting with limited data. This analysis serves as a guide for the principled choice of the effective horizon for IRL. It also prompts us to re-examine the classic IRL formulation: it is more natural to learn jointly the reward and the effective horizon rather than the reward alone with a given horizon. To validate our findings, we implement a cross-validation extension and the experimental results confirm the theoretical analysis.
arxiv情報
著者 | Yiqing Xu,Finale Doshi-Velez,David Hsu |
発行日 | 2024-10-16 16:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google