要約
カードゲームのハナビは、協力的な性質、隠された情報、限られたコミュニケーション、顕著な複雑さのために、マルチエージェント補強学習(MARL)アルゴリズムのテストと開発の強力な媒体と見なされます。
以前の研究の取り組みは、ハナビ内のMarlアルゴリズムの機能を調査し、主に高度なアーキテクチャの設計とアルゴリズム操作に焦点を当てて、さまざまな数の協同組合の最先端のパフォーマンスを達成しました。
ただし、これは多くの場合、計算コストが高く、大量のトレーニングデータを必要とする複雑なソリューション戦略につながります。
人間がハナビのゲームを効果的に解決するには、慣習の使用が必要です。これは、多くの場合、事前に定義され、相互に合意された「ルール」のセットに基づいてアイデアや知識を暗黙的に伝える手段を可能にします。
特に限られたコミュニケーションが存在する場合、部分的な観測性を含む多象徴的な問題は、暗黙の知識共有の使用から大きな恩恵を受けることができます。
この論文では、複数の時間ステップと複数のエージェントにまたがる特別な協同的行動として機能する慣習を使用して、アクション空間を増強するための新しいアプローチを提案します。
これらの慣習は、既存の人間の慣習に基づいており、ハナビ内のさまざまな数の協同組合にわたる自己プレイとクロスプレイのための既存のテクニックのパフォーマンスを大幅に改善します。
要約(オリジナル)
The card game Hanabi is considered a strong medium for the testing and development of multi-agent reinforcement learning (MARL) algorithms, due to its cooperative nature, hidden information, limited communication and remarkable complexity. Previous research efforts have explored the capabilities of MARL algorithms within Hanabi, focusing largely on advanced architecture design and algorithmic manipulations to achieve state-of-the-art performance for a various number of cooperators. However, this often leads to complex solution strategies with high computational cost and requiring large amounts of training data. For humans to solve the Hanabi game effectively, they require the use of conventions, which often allows for a means to implicitly convey ideas or knowledge based on a predefined, and mutually agreed upon, set of “rules”. Multi-agent problems containing partial observability, especially when limited communication is present, can benefit greatly from the use of implicit knowledge sharing. In this paper, we propose a novel approach to augmenting the action space using conventions, which act as special cooperative actions that span over multiple time steps and multiple agents, requiring agents to actively opt in for it to reach fruition. These conventions are based on existing human conventions, and result in a significant improvement on the performance of existing techniques for self-play and cross-play across a various number of cooperators within Hanabi.
arxiv情報
著者 | F. Bredell,H. A. Engelbrecht,J. C. Schoeman |
発行日 | 2025-04-08 16:15:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google