要約
Min-Max 問題は、ネットワーク内で最もパフォーマンスの悪いエージェントのパフォーマンスを向上させるため、マルチエージェントの逐次意思決定において重要です。
ただし、マルチエージェントの最小-最大問題を解決するのは困難です。
我々は、エージェントがネットワークトポロジ内で通信し、遷移関数と報酬関数が近傍に依存すると仮定して、ネットワーク化されたマルコフゲームの最小-最大目標の解を近似できる、モジュール式の分散型オンライン計画ベースのアルゴリズムを提案します。
このセットアップはマルチロボット設定で発生します。
私たちの方法は、計画ステップごとに 2 つのフェーズで構成されます。
最初のフェーズでは、各エージェントはオンライン計画を実行することにより、ローカル報酬関数に基づいてサンプル収益を取得します。
オンライン計画からのサンプルを使用して、各エージェントは、次の計画ステップでその近傍のアクションのみの関数として、基礎となるローカル リターンの凹型近似を構築します。
第 2 フェーズでは、エージェントは、第 1 フェーズの関数近似に基づいて、各エージェントにとって最適な即時の次のアクションに収束する分散最適化フレームワークを展開します。
フォーメーション制御シミュレーションを通じてアルゴリズムのパフォーマンスを実証します。
要約(オリジナル)
Min-max problems are important in multi-agent sequential decision-making because they improve the performance of the worst-performing agent in the network. However, solving the multi-agent min-max problem is challenging. We propose a modular, distributed, online planning-based algorithm that is able to approximate the solution of the min-max objective in networked Markov games, assuming that the agents communicate within a network topology and the transition and reward functions are neighborhood-dependent. This set-up is encountered in the multi-robot setting. Our method consists of two phases at every planning step. In the first phase, each agent obtains sample returns based on its local reward function, by performing online planning. Using the samples from online planning, each agent constructs a concave approximation of its underlying local return as a function of only the action of its neighborhood at the next planning step. In the second phase, the agents deploy a distributed optimization framework that converges to the optimal immediate next action for each agent, based on the function approximations of the first phase. We demonstrate our algorithm’s performance through formation control simulations.
arxiv情報
著者 | Alexandros E. Tzikas,Jinkyoo Park,Mykel J. Kochenderfer,Ross E. Allen |
発行日 | 2024-05-29 23:26:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google