要約
StarCraft マルチエージェント チャレンジ (SMAC) は、マルチエージェント強化学習 (MARL) で最も一般的に使用される実験環境の 1 つであり、特定のタスクは、設定された数の味方ユニットを制御して敵軍を倒すことです。
従来の MARL アルゴリズムでは、モデルをトレーニングするために最大 100 万ステップの環境との対話が必要になることが多く、結果として得られるポリシーは一般に解釈不可能で、転送可能性が弱くなります。
この論文では、LLM-SMAC と呼ばれる SMAC タスクを解決するための新しいアプローチを提案します。
私たちのフレームワークでは、エージェントは大規模言語モデル (LLM) を利用して、タスクの説明を提供することでデシジョン ツリー コードを生成します。
モデルは、環境によって提供される報酬からのフィードバックを使用してさらに内省されます。
私たちは SMAC で実験を行い、私たちの方法が最小限の環境探索で高品質で解釈可能な決定木を生成できることを実証しました。
さらに、これらのモデルは強力な移植性を示し、変更することなく同様の SMAC 環境に適用することができます。
私たちは、このアプローチが将来の意思決定タスクを解決するための新しい方向性を提供すると信じています。
要約(オリジナル)
StarCraft Multi-Agent Challenge (SMAC) is one of the most commonly used experimental environments in multi-agent reinforcement learning (MARL), where the specific task is to control a set number of allied units to defeat enemy forces. Traditional MARL algorithms often require interacting with the environment for up to 1 million steps to train a model, and the resulting policies are typically non-interpretable with weak transferability. In this paper, we propose a novel approach to solving SMAC tasks called LLM-SMAC. In our framework, agents leverage large language models (LLMs) to generate decision tree code by providing task descriptions. The model is further self-reflection using feedback from the rewards provided by the environment. We conduct experiments in the SMAC and demonstrate that our method can produce high-quality, interpretable decision trees with minimal environmental exploration. Moreover, these models exhibit strong transferability, successfully applying to similar SMAC environments without modification. We believe this approach offers a new direction for solving decision-making tasks in the future.
arxiv情報
著者 | Yue Deng,Weiyu Ma,Yuxin Fan,Yin Zhang,Haifeng Zhang,Jian Zhao |
発行日 | 2024-10-21 13:58:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google