要約
近年の生成モデルの進歩は、画像生成やチャットボットなど、多くの分野で大きなイノベーションを促している。その成功にもかかわらず、これらのモデルは、人間のような試行錯誤の経験や推論を欠くため、複雑なマルチエージェントの意思決定問題に対して、大雑把で誤解を招くような解を生成することが多い。この限界に対処するために、我々は、生成された答えを強化するために、言語ガイド付きシミュレータをマルチエージェント強化学習パイプラインに統合するパラダイムを探求する。このシミュレータは、ダイナミクスと報酬を別々に学習するワールドモデルであり、ダイナミクスモデルは、画像トークン化器と、相互作用遷移を自己回帰的に生成する因果変換器から構成され、報酬モデルは、言語ガイドの下で、専門家のデモンストレーションにおける軌道の尤度を最大化することによって学習される双方向変換器である。現在の状態の画像とタスク記述が与えられたとき、ワールドモデルを用いて共同ポリシーを学習し、収束したポリシーをダイナミクスモデル上で実行することにより、画像シーケンスを答えとして生成する。実証結果は、StarCraft Multi-Agent Challengeベンチマークの訓練タスクと未見タスクで優れた性能を示すことにより、このフレームワークがマルチエージェント意思決定問題の解答を改善できることを示す。特に、一貫性のある相互作用シーケンスと、相互作用状態における説明可能な報酬関数を生成することができ、将来の生成モデルの訓練への道を開く。
要約(オリジナル)
Recent progress in generative models has stimulated significant innovations in many fields, such as image generation and chatbots. Despite their success, these models often produce sketchy and misleading solutions for complex multi-agent decision-making problems because they miss the trial-and-error experience and reasoning as humans. To address this limitation, we explore a paradigm that integrates a language-guided simulator into the multi-agent reinforcement learning pipeline to enhance the generated answer. The simulator is a world model that separately learns dynamics and reward, where the dynamics model comprises an image tokenizer as well as a causal transformer to generate interaction transitions autoregressively, and the reward model is a bidirectional transformer learned by maximizing the likelihood of trajectories in the expert demonstrations under language guidance. Given an image of the current state and the task description, we use the world model to train the joint policy and produce the image sequence as the answer by running the converged policy on the dynamics model. The empirical results demonstrate that this framework can improve the answers for multi-agent decision-making problems by showing superior performance on the training and unseen tasks of the StarCraft Multi-Agent Challenge benchmark. In particular, it can generate consistent interaction sequences and explainable reward functions at interaction states, opening the path for training generative models of the future.
arxiv情報
著者 | Zeyang Liu,Xinrui Yang,Shiguang Sun,Long Qian,Lipeng Wan,Xingyu Chen,Xuguang Lan |
発行日 | 2024-10-03 16:49:59+00:00 |
arxivサイト | arxiv_id(pdf) |