要約
人工知能は、意思決定のための最適化された戦略を提供したり肉体労働を代替したりすることで、複雑な環境で人間が困難なタスクを完了できるように支援するために使用されてきました。
フットボールなどの複数のエージェントを含む環境では、エージェントをトレーニングする最も一般的な方法は模倣学習とマルチエージェント強化学習 (MARL) です。
ただし、模倣学習によって訓練されたエージェントは、熟練したデモンストレーターを上回るパフォーマンスを発揮できないため、人間は学習されたポリシーから新しい洞察を得ることがほとんどできません。
さらに、MARL は単位割り当ての問題を抱えやすいです。
報酬信号がまばらな環境では、この方法は非効率となる可能性があります。
私たちの研究の目的は、報酬関数にコンテキスト情報を埋め込むことで、前述の課題を解決する新しい報酬形成方法を作成することです。
これを Google Research Football (GRF) 環境で実証します。
ゲーム状態の観察から抽出されたコンテキスト情報を定量化し、この定量化を元のスパース報酬と組み合わせて使用して、成形された報酬を作成します。
GRF 環境での実験結果は、報酬形成手法が、報酬信号がまばらな環境でエージェントをトレーニングするための最先端の MARL アルゴリズムへの有用な追加であることを証明しています。
要約(オリジナル)
Artificial Intelligence has been used to help human complete difficult tasks in complicated environments by providing optimized strategies for decision-making or replacing the manual labour. In environments including multiple agents, such as football, the most common methods to train agents are Imitation Learning and Multi-Agent Reinforcement Learning (MARL). However, the agents trained by Imitation Learning cannot outperform the expert demonstrator, which makes humans hardly get new insights from the learnt policy. Besides, MARL is prone to the credit assignment problem. In environments with sparse reward signal, this method can be inefficient. The objective of our research is to create a novel reward shaping method by embedding contextual information in reward function to solve the aforementioned challenges. We demonstrate this in the Google Research Football (GRF) environment. We quantify the contextual information extracted from game state observation and use this quantification together with original sparse reward to create the shaped reward. The experiment results in the GRF environment prove that our reward shaping method is a useful addition to state-of-the-art MARL algorithms for training agents in environments with sparse reward signal.
arxiv情報
著者 | Chaoyi Gu,Varuna De Silva,Corentin Artaud,Rafael Pina |
発行日 | 2023-07-21 17:20:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google