LAMARL: LLM-Aided Multi-Agent Reinforcement Learning for Cooperative Policy Generation

要約

マルチエージェント強化学習(MARL)は複雑なマルチロボットタスクに有効であるが、サンプル効率が低く、手動による報酬チューニングを繰り返す必要がある。大規模言語モデル(Large Language Models: LLM)はシングルロボットでは有望であるが、マルチロボットシステムへの応用はほとんど未開拓である。本論文では、MARLとLLMを統合し、手動で設計することなくサンプル効率を大幅に向上させる、新しいLLM-Aided MARL(LAMARL)アプローチを紹介する。LAMARLは2つのモジュールから構成され、1つ目のモジュールはLLMを活用して事前ポリシーと報酬関数の生成を完全に自動化する。2つ目のモジュールはMARLであり、生成された関数を用いてロボットのポリシー学習を効率的にガイドする。形状組立ベンチマークにおいて、シミュレーションと実世界実験の両方がLAMARLのユニークな利点を実証している。アブレーション研究では、事前ポリシーがサンプル効率を平均185.9%改善し、タスク完了を向上させる一方、思考連鎖(CoT)と基本APIに基づく構造化プロンプトがLLM出力成功率を28.5%~67.5%改善することが示された。ビデオとコードはhttps://windylab.github.io/LAMARL/。

要約(オリジナル)

Although Multi-Agent Reinforcement Learning (MARL) is effective for complex multi-robot tasks, it suffers from low sample efficiency and requires iterative manual reward tuning. Large Language Models (LLMs) have shown promise in single-robot settings, but their application in multi-robot systems remains largely unexplored. This paper introduces a novel LLM-Aided MARL (LAMARL) approach, which integrates MARL with LLMs, significantly enhancing sample efficiency without requiring manual design. LAMARL consists of two modules: the first module leverages LLMs to fully automate the generation of prior policy and reward functions. The second module is MARL, which uses the generated functions to guide robot policy training effectively. On a shape assembly benchmark, both simulation and real-world experiments demonstrate the unique advantages of LAMARL. Ablation studies show that the prior policy improves sample efficiency by an average of 185.9% and enhances task completion, while structured prompts based on Chain-of-Thought (CoT) and basic APIs improve LLM output success rates by 28.5%-67.5%. Videos and code are available at https://windylab.github.io/LAMARL/

arxiv情報

著者 Guobin Zhu,Rui Zhou,Wenkang Ji,Shiyu Zhao
発行日 2025-06-03 07:53:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク