An active learning method for solving competitive multi-agent decision-making and control problems

要約

我々は、相互作用するエージェントの集団によって実行されるプライベート戦略を再構築し、基礎となるマルチエージェント相互作用プロセスの正確な結果(ここでは定常的なアクションプロファイルとして特定される)を予測するための能動学習に基づくスキームを提案します。
私たちは、学習手順を備えた外部観察者がクエリを作成し、集合的な固定点が定常プロファイルに対応するプライベートなアクション – 反応マッピングを通じてエージェントの反応を観察できるというシナリオを想定しています。
実用的なデータを繰り返し収集し、作用と反応のマッピングのパラメトリック推定を更新することで、提案されている能動学習方法論の漸近特性を評価するための十分な条件を確立します。これにより、収束が起こったとしても、それは定常的な作用プロファイルにのみ向かうことができます。
この事実は 2 つの主な結果をもたらします。i) 作用反応マッピングの局所的に正確な代理を学習することで、外部観察者は予測タスクに成功することができます。ii) あまりにも一般的であるため、定常プロファイルが存在することさえ保証されない仮定を使用して作業します。
したがって、確立された十分条件は、そのような望ましいプロファイルが存在することの証明書としても機能します。
典型的な競合マルチエージェント制御と意思決定の問題を含む広範な数値シミュレーションにより、提案された学習ベースのアプローチの実際的な有効性が示されています。

要約(オリジナル)

We propose a scheme based on active learning to reconstruct private strategies executed by a population of interacting agents and predict an exact outcome of the underlying multi-agent interaction process, here identified as a stationary action profile. We envision a scenario where an external observer, endowed with a learning procedure, can make queries and observe the agents’ reactions through private action-reaction mappings, whose collective fixed point corresponds to a stationary profile. By iteratively collecting sensible data and updating parametric estimates of the action-reaction mappings, we establish sufficient conditions to assess the asymptotic properties of the proposed active learning methodology so that, if convergence happens, it can only be towards a stationary action profile. This fact yields two main consequences: i) learning locally-exact surrogates of the action-reaction mappings allows the external observer to succeed in its prediction task, and ii) working with assumptions so general that a stationary profile is not even guaranteed to exist, the established sufficient conditions hence act also as certificates for the existence of such a desirable profile. Extensive numerical simulations involving typical competitive multi-agent control and decision-making problems illustrate the practical effectiveness of the proposed learning-based approach.

arxiv情報

著者 Filippo Fabiani,Alberto Bemporad
発行日 2023-08-28 14:10:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.SY, eess.SY, math.OC パーマリンク