要約
本論文では、アドホックチームワーク(AHT)のためのミニマックスベイズアプローチを提案する。このアプローチは、パートナーに関する敵対的事前分布に対してポリシーを最適化するものであり、配備時のパートナーに関する不確実性を明示的に考慮する。パートナーに関する特定の分布を仮定する既存の手法とは異なり、我々のアプローチはワーストケースの性能保証を改善する。Melting Potスイートの協調調理タスクの評価を含む広範な実験により、セルフプレイ、架空プレイ、ベストレスポンス学習と比較して、我々の手法が優れた頑健性を持つことが示された。我々の研究は、AHTにおける頑健性を達成するために、チームメイトに対する適切な訓練分布を選択することの重要性を強調している。
要約(オリジナル)
We propose a minimax-Bayes approach to Ad Hoc Teamwork (AHT) that optimizes policies against an adversarial prior over partners, explicitly accounting for uncertainty about partners at time of deployment. Unlike existing methods that assume a specific distribution over partners, our approach improves worst-case performance guarantees. Extensive experiments, including evaluations on coordinated cooking tasks from the Melting Pot suite, show our method’s superior robustness compared to self-play, fictitious play, and best response learning. Our work highlights the importance of selecting an appropriate training distribution over teammates to achieve robustness in AHT.
arxiv情報
著者 | Victor Villin,Thomas Kleine Buening,Christos Dimitrakakis |
発行日 | 2025-02-04 14:57:54+00:00 |
arxivサイト | arxiv_id(pdf) |