要約
マルチエージェント ナビゲーション アルゴリズムの設計に対する従来のアプローチでは、エージェントのパフォーマンスに対する空間的制約の影響にもかかわらず、環境を固定制約とみなします。
しかし、環境に配慮したレイアウトを手作業で設計するのは非効率的であり、コストがかかる可能性があります。
この文書の目的は、エージェントのパフォーマンスと環境コストの両方が組み込まれる、システムレベルの最適化問題における決定変数として環境を考慮することです。
この目的に向けて、我々は、優先順位のない環境最適化と優先順位のある環境最適化という新しい問題を提案します。ここで、前者はエージェントを公平に考慮し、後者はエージェントの優先順位を考慮します。
私たちは、形式的な証明を通じて、どのような条件下で完全性を保証しながら環境が変化する可能性があるかを示し (つまり、すべてのエージェントが目標を達成する)、環境の最適化におけるエージェントの優先順位の役割を分析します。
環境の最適化に現実世界の制約を課し、それを制約付き確率的最適化問題として数学的に定式化します。
エージェント、環境、パフォーマンスの関係をモデル化するのは難しいため、強化学習を活用してモデルフリーのソリューションと制約を処理する主双対メカニズムを開発します。
独自の情報処理アーキテクチャが、オンライン/オフラインの最適化や離散/連続環境などのさまざまな実装シナリオに統合されています。
数値結果は理論を裏付け、私たちのアプローチの妥当性と適応性を示しています。
要約(オリジナル)
Traditional approaches to the design of multi-agent navigation algorithms consider the environment as a fixed constraint, despite the influence of spatial constraints on agents’ performance. Yet hand-designing conducive environment layouts is inefficient and potentially expensive. The goal of this paper is to consider the environment as a decision variable in a system-level optimization problem, where both agent performance and environment cost are incorporated. Towards this end, we propose novel problems of unprioritized and prioritized environment optimization, where the former considers agents unbiasedly and the latter accounts for agent priorities. We show, through formal proofs, under which conditions the environment can change while guaranteeing completeness (i.e., all agents reach goals), and analyze the role of agent priorities in the environment optimization. We proceed to impose real-world constraints on the environment optimization and formulate it mathematically as a constrained stochastic optimization problem. Since the relation between agents, environment and performance is challenging to model, we leverage reinforcement learning to develop a model-free solution and a primal-dual mechanism to handle constraints. Distinct information processing architectures are integrated for various implementation scenarios, including online/offline optimization and discrete/continuous environment. Numerical results corroborate the theory and demonstrate the validity and adaptability of our approach.
arxiv情報
著者 | Zhan Gao,Amanda Prorok |
発行日 | 2023-05-18 18:55:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google