要約
マルチエージェント システムでは、これらのユーティリティが個々の目標と他のエージェントとの相互作用の両方を形成するため、エージェントの動作はそのユーティリティ関数によって大きく影響されます。
逆強化学習 (IRL) は、特定の環境内で専門家の行動を観察することによって効用関数を推測するための確立されたアプローチです。
この論文では、ナッシュ均衡 (NE) ポリシーに従っているエージェントを観察することを前提として、IRL フレームワークをマルチエージェント設定に拡張します。
私たちは、NE エキスパートの行動を説明する一連のユーティリティを理論的に調査します。
具体的には、実現可能な報酬セットの明示的な特徴付けを提供し、遷移ダイナミクスと専門家の行動の推定における誤差が回収された報酬にどのような影響を与えるかを分析します。
これらの発見に基づいて、マルチエージェント IRL 問題に対する最初のサンプル複雑性分析を提供します。
最後に、理論的結果を数値的に評価します。
要約(オリジナル)
In multi-agent systems, the agent behavior is highly influenced by its utility function, as these utilities shape both individual goals as well as interactions with the other agents. Inverse Reinforcement Learning (IRL) is a well-established approach to inferring the utility function by observing an expert behavior within a given environment. In this paper, we extend the IRL framework to the multi-agent setting, assuming to observe agents who are following Nash Equilibrium (NE) policies. We theoretically investigate the set of utilities that explain the behavior of NE experts. Specifically, we provide an explicit characterization of the feasible reward set and analyze how errors in estimating the transition dynamics and expert behavior impact the recovered rewards. Building on these findings, we provide the first sample complexity analysis for the multi-agent IRL problem. Finally, we provide a numerical evaluation of our theoretical results.
arxiv情報
著者 | Till Freihaut,Giorgia Ramponi |
発行日 | 2024-11-22 16:31:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google