Maximum Causal Entropy Inverse Reinforcement Learning for Mean-Field Games

要約

この論文では、無限地平線の割引報酬最適性基準の下で、離散時間平均場ゲーム (MFG) に対する最大カジュアル エントロピー逆強化学習 (IRL) 問題を紹介します。
一般的なエージェントの状態空間は有限です。
私たちのアプローチは、有限および無限の地平線シナリオの両方における決定論的および確率的マルコフ決定プロセス (MDP) に関する最大エントロピー IRL 問題の包括的なレビューから始まります。
続いて、MFG の最大カジュアル エントロピー IRL 問題、つまりポリシーに関する非凸最適化問題を定式化します。
MDP の線形計画法を活用して、この IRL 問題を凸最適化問題に再構築し、収束率を伴う最適解を計算する勾配降下法アルゴリズムを確立します。
最後に、MFG 問題を一般化ナッシュ均衡問題 (GNEP) として定式化することにより、新しいアルゴリズムを提示します。これは、順方向 RL 問題の平均場均衡 (MFE) を計算できます。
この方法は、数値例のデータを作成するために使用されます。
この新しいアルゴリズムは一般的な MFE 計算にも適用できることに注意してください。

要約(オリジナル)

In this paper, we introduce the maximum casual entropy Inverse Reinforcement Learning (IRL) problem for discrete-time mean-field games (MFGs) under an infinite-horizon discounted-reward optimality criterion. The state space of a typical agent is finite. Our approach begins with a comprehensive review of the maximum entropy IRL problem concerning deterministic and stochastic Markov decision processes (MDPs) in both finite and infinite-horizon scenarios. Subsequently, we formulate the maximum casual entropy IRL problem for MFGs – a non-convex optimization problem with respect to policies. Leveraging the linear programming formulation of MDPs, we restructure this IRL problem into a convex optimization problem and establish a gradient descent algorithm to compute the optimal solution with a rate of convergence. Finally, we present a new algorithm by formulating the MFG problem as a generalized Nash equilibrium problem (GNEP), which is capable of computing the mean-field equilibrium (MFE) for the forward RL problem. This method is employed to produce data for a numerical example. We note that this novel algorithm is also applicable to general MFE computations.

arxiv情報

著者 Berkay Anahtarci,Can Deha Kariksiz,Naci Saldi
発行日 2024-01-12 13:22:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC パーマリンク