Understanding Reward Ambiguity Through Optimal Transport Theory in Inverse Reinforcement Learning

要約

逆強化学習 (IRL) の中心的な目的は、特定のデータを説明するだけでなく、目に見えないシナリオにも一般化できる方法で、観察された専門家の行動から根底にある報酬関数を推測することです。
これにより、複数の報酬関数が同じエキスパートの行動を同等に説明できる、報酬の曖昧さに対する堅牢性が保証されます。
この問題に対処するために多大な努力が払われてきましたが、現在の方法は高次元の問題に直面し、幾何学的基礎が欠けていることがよくあります。
この論文では、最適輸送 (OT) 理論を活用して、これらの課題に対する新たな視点を提供します。
OT からの Wasserstein 距離を利用することで、報酬の曖昧さを定量化し、報酬関数の中心表現または重心を特定できる幾何学的フレームワークを確立します。
これらの洞察は、幾何学的解釈に基づいた堅牢な IRL 方法論への道を切り開き、高次元の設定における報酬の曖昧さに取り組むための構造化されたアプローチを提供します。

要約(オリジナル)

In inverse reinforcement learning (IRL), the central objective is to infer underlying reward functions from observed expert behaviors in a way that not only explains the given data but also generalizes to unseen scenarios. This ensures robustness against reward ambiguity where multiple reward functions can equally explain the same expert behaviors. While significant efforts have been made in addressing this issue, current methods often face challenges with high-dimensional problems and lack a geometric foundation. This paper harnesses the optimal transport (OT) theory to provide a fresh perspective on these challenges. By utilizing the Wasserstein distance from OT, we establish a geometric framework that allows for quantifying reward ambiguity and identifying a central representation or centroid of reward functions. These insights pave the way for robust IRL methodologies anchored in geometric interpretations, offering a structured approach to tackle reward ambiguity in high-dimensional settings.

arxiv情報

著者 Ali Baheri
発行日 2023-10-18 15:42:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC パーマリンク