要約
ゼロショット コーディネーション (ZSC) は、新しい協調的なマルチエージェント強化学習 (MARL) チャレンジであり、展開中に目に見えない多様なパートナーと連携できるようにエゴ エージェントを訓練することを目的としています。
導入時のパートナーの分布と、トレーニング アルゴリズムによって決定されるトレーニング パートナーの分布との間には大きな違いがあるため、ZSC は独特の分布外 (OOD) 一般化の課題となっています。
評価パートナーと導入時のパートナー間の潜在的な配布ギャップは不適切な評価につながり、適切な評価指標の欠如によってさらに悪化します。
このペーパーでは、ZSC アルゴリズムの最初の評価ツールキットおよびベンチマークである ZSC-Eval を紹介します。
ZSC-Eval は以下で構成されます。 1) 導入時のパートナーの分布を近似するための行動優先報酬による評価パートナー候補の生成。
2) Best-Response Diversity (BR-Div) による評価パートナーの選定。
3) Best-Response Proximity (BR-Prox) メトリクスを介した、さまざまな評価パートナーによる汎化パフォーマンスの測定。
ZSC-Eval を使用して、Overcooked 環境および Google Research Football 環境で ZSC アルゴリズムのベンチマークを行い、新しい経験的発見を得ました。
また、ZSC-Eval と人間の評価との整合性を検証するために、現在の ZSC アルゴリズムの人体実験も実施します。
ZSC-Eval は https://github.com/sjtu-marl/ZSC-Eval で利用できるようになりました。
要約(オリジナル)
Zero-shot coordination (ZSC) is a new cooperative multi-agent reinforcement learning (MARL) challenge that aims to train an ego agent to work with diverse, unseen partners during deployment. The significant difference between the deployment-time partners’ distribution and the training partners’ distribution determined by the training algorithm makes ZSC a unique out-of-distribution (OOD) generalization challenge. The potential distribution gap between evaluation and deployment-time partners leads to inadequate evaluation, which is exacerbated by the lack of appropriate evaluation metrics. In this paper, we present ZSC-Eval, the first evaluation toolkit and benchmark for ZSC algorithms. ZSC-Eval consists of: 1) Generation of evaluation partner candidates through behavior-preferring rewards to approximate deployment-time partners’ distribution; 2) Selection of evaluation partners by Best-Response Diversity (BR-Div); 3) Measurement of generalization performance with various evaluation partners via the Best-Response Proximity (BR-Prox) metric. We use ZSC-Eval to benchmark ZSC algorithms in Overcooked and Google Research Football environments and get novel empirical findings. We also conduct a human experiment of current ZSC algorithms to verify the ZSC-Eval’s consistency with human evaluation. ZSC-Eval is now available at https://github.com/sjtu-marl/ZSC-Eval.
arxiv情報
著者 | Xihuai Wang,Shao Zhang,Wenhao Zhang,Wentao Dong,Jingxiao Chen,Ying Wen,Weinan Zhang |
発行日 | 2024-09-26 14:16:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google