Co-Optimization of Environment and Policies for Decentralized Multi-Agent Navigation

要約

この研究では、マルチエージェント システムとその周囲の環境を、一方の動作が他方に影響を与える共進化システムとして見ています。
目標は、エージェントのアクションと環境構成の両方を決定変数として取得し、これら 2 つのコンポーネントを調整された方法で最適化して、関心のある尺度を改善することです。
この目的に向けて、乱雑な環境における分散型マルチエージェント ナビゲーションの問題を検討します。
マルチエージェントナビゲーションと環境最適化という 2 つの副目的を導入することで、$\textit{エージェントと環境の協調最適化}$ 問題を提案し、これらの副目的を交互に実行する $\textit{調整アルゴリズム}$ を開発します。
環境内のエージェントのアクションと障害物の構成の最適な統合を探索します。
最終的にはナビゲーションのパフォーマンスが向上します。
エージェント、環境、パフォーマンス間の関係を明示的にモデル化するという課題のため、私たちはポリシー勾配を活用して、調整されたフレームワーク内でモデルフリーの学習メカニズムを定式化します。
正式な収束解析により、私たちの調整アルゴリズムが、関連する時間変化する非凸最適化問題の極小軌道を追跡することがわかります。
広範な数値結果は理論的発見を裏付け、ベースラインを超える共最適化の利点を示しています。
興味深いことに、この結果は、最適化された環境構成が、動作中のエージェントの競合を解消するための鍵となる構造的なガイダンスを提供できることも示しています。

要約(オリジナル)

This work views the multi-agent system and its surrounding environment as a co-evolving system, where the behavior of one affects the other. The goal is to take both agent actions and environment configurations as decision variables, and optimize these two components in a coordinated manner to improve some measure of interest. Towards this end, we consider the problem of decentralized multi-agent navigation in cluttered environments. By introducing two sub-objectives of multi-agent navigation and environment optimization, we propose an $\textit{agent-environment co-optimization}$ problem and develop a $\textit{coordinated algorithm}$ that alternates between these sub-objectives to search for an optimal synthesis of agent actions and obstacle configurations in the environment; ultimately, improving the navigation performance. Due to the challenge of explicitly modeling the relation between agents, environment and performance, we leverage policy gradient to formulate a model-free learning mechanism within the coordinated framework. A formal convergence analysis shows that our coordinated algorithm tracks the local minimum trajectory of an associated time-varying non-convex optimization problem. Extensive numerical results corroborate theoretical findings and show the benefits of co-optimization over baselines. Interestingly, the results also indicate that optimized environment configurations are able to offer structural guidance that is key to de-conflicting agents in motion.

arxiv情報

著者 Zhan Gao,Guang Yang,Amanda Prorok
発行日 2024-03-21 17:37:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO パーマリンク