要約
私たちは、信頼できない外部コマンドを使用した、予測不可能で部分的に観測可能な環境におけるマルチエージェントの調整の問題を研究します。
コマンドはロボットに提案される動作であり、その動作保証があるとしても不明であるため、信頼できません。
このようなコマンドは、人間のオペレーターまたは機械学習アルゴリズムによって生成される可能性があり、信頼できないものの、多くの場合、複雑な複数のロボットのタスクにおいてロボットのパフォーマンスを向上させることができます。
私たちは、ターゲットの追跡、環境マッピング、エリア監視などの複雑なマルチロボット タスクを動機としています。
このようなタスクは、ロボット間で情報が重複するため、サブモジュール最大化問題としてモデル化されることがよくあります。
当社では、外部コマンドが任意に不正な場合でもパフォーマンスを保証するアルゴリズム Meta Bandit Sequential Greedy (MetaBSG) を提供しています。
MetaBSG は、メタアルゴリズムを利用して、ロボットがコマンドに従うべきか、それとも最近開発されたサブモジュール調整アルゴリズムである Bandit Sequential Greedy (BSG) [1] に従うべきかを学習します。このアルゴリズムは、予測不可能で部分的に観測可能な環境でもパフォーマンスが保証されています。
特に、MetaBSG はコマンドと BSG アルゴリズムから漸近的に優れたパフォーマンスを達成することができ、後から考えると最適な時間変化するマルチロボット アクションに対する準最適性を定量化します。
したがって、MetaBSG は信頼できないコマンドを強化すると解釈できます。
マルチターゲット追跡のシミュレーションシナリオでアルゴリズムを検証します。
要約(オリジナル)
We study the problem of multi-agent coordination in unpredictable and partially-observable environments with untrustworthy external commands. The commands are actions suggested to the robots, and are untrustworthy in that their performance guarantees, if any, are unknown. Such commands may be generated by human operators or machine learning algorithms and, although untrustworthy, can often increase the robots’ performance in complex multi-robot tasks. We are motivated by complex multi-robot tasks such as target tracking, environmental mapping, and area monitoring. Such tasks are often modeled as submodular maximization problems due to the information overlap among the robots. We provide an algorithm, Meta Bandit Sequential Greedy (MetaBSG), which enjoys performance guarantees even when the external commands are arbitrarily bad. MetaBSG leverages a meta-algorithm to learn whether the robots should follow the commands or a recently developed submodular coordination algorithm, Bandit Sequential Greedy (BSG) [1], which has performance guarantees even in unpredictable and partially-observable environments. Particularly, MetaBSG asymptotically can achieve the better performance out of the commands and the BSG algorithm, quantifying its suboptimality against the optimal time-varying multi-robot actions in hindsight. Thus, MetaBSG can be interpreted as robustifying the untrustworthy commands. We validate our algorithm in simulated scenarios of multi-target tracking.
arxiv情報
著者 | Zirui Xu,Xiaofeng Lin,Vasileios Tzoumas |
発行日 | 2023-09-28 04:26:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google