Minimum Coverage Sets for Training Robust Ad Hoc Teamwork Agents

要約

目に見えないエージェントや人間のパートナーと強力に協力することは、これらのパートナーが採用する可能性のある多様な協力慣習により、重大な課題を伴います。
既存のアドホック チームワーク (AHT) 手法は、特定の多様性指標を最大化することで得られた多様なチームメイト ポリシーの母集団を使用してエージェントをトレーニングすることで、この課題に対処しています。
ただし、これらのヒューリスティックな多様性メトリクスは、すべての協調問題においてエージェントの堅牢性を常に最大化するとは限りません。
この研究では、まず、AHT エージェントの堅牢性を最大化するには、環境内のパートナー ポリシーに対する最良の応答ポリシーのセットであるミニマム カバレッジ セット (MCS) 内のポリシーをエミュレートする必要があることを提案します。
次に、AHT トレーニングに使用されるときにエージェントが MCS からポリシーをエミュレートすることを促す一連のチームメイト ポリシーを生成する L-BRDiv アルゴリズムを紹介します。
L-BRDiv は、制約付き最適化問題を解決して、AHT トレーニング用のチームメイト ポリシーを共同でトレーニングし、MCS のメンバーである AHT エージェント ポリシーを近似することによって機能します。
我々は、L-BRDiv が、目的に合わせて広範なハイパーパラメータ調整を必要とせずに、広範囲の 2 プレイヤー協力問題において、最先端の方法よりも堅牢な AHT エージェントを生成することを経験的に示しています。
私たちの研究では、L-BRDiv が冗長なポリシーを繰り返し見つけるのではなく、MCS の個別のメンバーの発見を優先することにより、ベースライン手法よりも優れたパフォーマンスを発揮することを示しています。

要約(オリジナル)

Robustly cooperating with unseen agents and human partners presents significant challenges due to the diverse cooperative conventions these partners may adopt. Existing Ad Hoc Teamwork (AHT) methods address this challenge by training an agent with a population of diverse teammate policies obtained through maximizing specific diversity metrics. However, these heuristic diversity metrics do not always maximize the agent’s robustness in all cooperative problems. In this work, we first propose that maximizing an AHT agent’s robustness requires it to emulate policies in the minimum coverage set (MCS), the set of best-response policies to any partner policies in the environment. We then introduce the L-BRDiv algorithm that generates a set of teammate policies that, when used for AHT training, encourage agents to emulate policies from the MCS. L-BRDiv works by solving a constrained optimization problem to jointly train teammate policies for AHT training and approximating AHT agent policies that are members of the MCS. We empirically demonstrate that L-BRDiv produces more robust AHT agents than state-of-the-art methods in a broader range of two-player cooperative problems without the need for extensive hyperparameter tuning for its objectives. Our study shows that L-BRDiv outperforms the baseline methods by prioritizing discovering distinct members of the MCS instead of repeatedly finding redundant policies.

arxiv情報

著者 Arrasy Rahman,Jiaxun Cui,Peter Stone
発行日 2023-08-18 14:45:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク