Bandit Submodular Maximization for Multi-Robot Coordination in Unpredictable and Partially Observable Environments

要約

私たちは、予測不可能で部分的に観察可能な環境、つまり、将来の進化がアプリオリに未知であり、部分的にしか観察できない環境におけるマルチエージェントの調整の問題を研究します。
私たちは、動的で非構造化された部分的に観察可能な環境で複数のロボットが動作を調整し、ターゲットの追跡、環境マッピング、エリア監視などの複雑なタスクを完了する自律性の将来に意欲を持っています。
このようなタスクは、ロボット間で情報が重複するため、サブモジュール最大化調整問題としてモデル化されることがよくあります。
バンディット フィードバックと制限付き追跡リグレットを備えた最初のサブモジュール調整アルゴリズムを導入します。バンディット フィードバックとは、代わりに選択できたすべての代替アクションではなく、選択したアクションの効果のみを後から計算するロボットの能力です。
部分的な可観測性。
そして、後悔の追跡は、先験的に将来を完全に知っている最適な時間変化アクションに関して、アルゴリズムの準最適性です。
この境界は、敵対的に変化する環境の能力に応じて緩やかに低下し、ロボットが先験的に完全に未来を知っているかのように調整することを学習するために、どのくらいの頻度でアクションを再選択する必要があるかを定量化します。
このアルゴリズムは、Fisher らによる独創的な Sequential Greedy アルゴリズムを一般化したものです。
最適なアクションを追跡する問題に対してサブモジュール性とアルゴリズムを活用することで、バンディット設定に対応します。
マルチターゲット追跡のシミュレーションシナリオでアルゴリズムを検証します。

要約(オリジナル)

We study the problem of multi-agent coordination in unpredictable and partially observable environments, that is, environments whose future evolution is unknown a priori and that can only be partially observed. We are motivated by the future of autonomy that involves multiple robots coordinating actions in dynamic, unstructured, and partially observable environments to complete complex tasks such as target tracking, environmental mapping, and area monitoring. Such tasks are often modeled as submodular maximization coordination problems due to the information overlap among the robots. We introduce the first submodular coordination algorithm with bandit feedback and bounded tracking regret — bandit feedback is the robots’ ability to compute in hindsight only the effect of their chosen actions, instead of all the alternative actions that they could have chosen instead, due to the partial observability; and tracking regret is the algorithm’s suboptimality with respect to the optimal time-varying actions that fully know the future a priori. The bound gracefully degrades with the environments’ capacity to change adversarially, quantifying how often the robots should re-select actions to learn to coordinate as if they fully knew the future a priori. The algorithm generalizes the seminal Sequential Greedy algorithm by Fisher et al. to the bandit setting, by leveraging submodularity and algorithms for the problem of tracking the best action. We validate our algorithm in simulated scenarios of multi-target tracking.

arxiv情報

著者 Zirui Xu,Xiaofeng Lin,Vasileios Tzoumas
発行日 2023-05-26 09:22:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO, cs.SY, eess.SY, math.OC パーマリンク