Peer-Aware Cost Estimation in Nonlinear General-Sum Dynamic Games for Mutual Learning and Intent Inference

要約

両方のエージェントの目的関数は互いに明示的に知られていないため、人間とロボットの相互作用は不完全な情報としてモデル化できます。
ただし、このようなゲームの平衡ポリシーを解決することは、特にゲームに非線形の根底にあるダイナミクスが含まれる場合、大きな課題を提示します。
問題を簡素化するために、既存の作業では、1人のエージェントがピアに関する完全な情報を持つ専門家であると想定しています。
この課題に対処するために、一般的なダイナミックゲームの非線形ピア認識コスト推定(N-PACE)アルゴリズムを提案します。
N-Paceでは、非線形一般的なサムゲームの反復線形二次(LQ)近似を使用して、各エージェントは、目的機能を推測しながら、ピアエージェントの学習ダイナミクスを明示的にモデル化し、タスクの完了と安全保証に重要なピアエージェントの未知の目的関数を推測する偏見のない速い学習につながります。
さらに、ピアの学習ダイナミクスを明示的にモデル化することにより、このようなマルチエージェントシステムでn-Paceが\ textbf {Intent Communication}をどのように有効にするかを示します。

要約(オリジナル)

Human-robot interactions can be modeled as incomplete-information general-sum dynamic games since the objective functions of both agents are not explicitly known to each other. However, solving for equilibrium policies for such games presents a major challenge, especially if the games involve nonlinear underlying dynamics. To simplify the problem, existing work often assumes that one agent is an expert with complete information about its peer, which can lead to biased estimates and failures in coordination. To address this challenge, we propose a nonlinear peer-aware cost estimation (N-PACE) algorithm for general-sum dynamic games. In N-PACE, using iterative linear quadratic (LQ) approximation of the nonlinear general-sum game, each agent explicitly models the learning dynamics of its peer agent while inferring their objective functions, leading to unbiased fast learning in inferring the unknown objective function of the peer agent, which is critical for task completion and safety assurance. Additionally, we demonstrate how N-PACE enables \textbf{intent communication} in such multi-agent systems by explicitly modeling the peer’s learning dynamics.

arxiv情報

著者 Seyed Yousef Soltanian,Wenlong Zhang
発行日 2025-04-23 22:47:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 49N70, 49N90, 91A27, 93C41, cs.AI, cs.GT, cs.RO, cs.SY, eess.SY パーマリンク