要約
複数の大規模な言語モデル(LLM)を活用して、共同のマルチエージェントワークフローを構築することで、重大な可能性が示されています。
ただし、以前の研究のほとんどは、すぐに表示されるようにLLMSのパフォーマンスを改善しない可能性のあるコラボレーションのための生来の能力に依存して、すぐに使用できるLLMSを促すことに焦点を当てています。
このペーパーでは、新しいトレーニング後のパラダイムMaporl(補強学習と共同LLMのマルチエージェント後訓練)を紹介し、共同行動を明示的に引き出し、マルチエージェントLLMフレームワークの力をさらに解き放ちます。
Maporlでは、複数のLLMが最初に独自の応答を独立して生成し、最終回答を共同で改善するために多ターンディスカッションに参加します。
最終的に、Maporl検証剤は、回答の正確性を検証するスコアを割り当てると同時に、是正と説得力のある議論を促進するインセンティブを追加することにより、答えと議論の両方を評価します。
スコアは共同トレーニングの報酬として機能し、マルチエージェントRLを通じて最大化されます。
既存のLLMポストトレーニングパラダイムとは異なり、Maporlは、より良い一般化のためにRLを使用して複数のLLMの共同トレーニングを一緒に提唱しています。
分析的な洞察を伴う実験は、個々のLLMだけをトレーニングするだけでは効果的なコラボレーションを誘導するには不十分であることを示しています。
対照的に、マルチエージェントの共同トレーニングは、目に見えないドメインへの一般化により、ベンチマーク全体のコラボレーションパフォーマンスを高めることができます。
要約(オリジナル)
Leveraging multiple large language models (LLMs) to build collaborative multi-agentic workflows has demonstrated significant potential. However, most previous studies focus on prompting the out-of-the-box LLMs, relying on their innate capability for collaboration, which may not improve LLMs’ performance as shown recently. In this paper, we introduce a new post-training paradigm MAPoRL (Multi-Agent Post-co-training for collaborative LLMs with Reinforcement Learning), to explicitly elicit the collaborative behaviors and further unleash the power of multi-agentic LLM frameworks. In MAPoRL, multiple LLMs first generate their own responses independently and engage in a multi-turn discussion to collaboratively improve the final answer. In the end, a MAPoRL verifier evaluates both the answer and the discussion, by assigning a score that verifies the correctness of the answer, while adding incentives to encourage corrective and persuasive discussions. The score serves as the co-training reward, and is then maximized through multi-agent RL. Unlike existing LLM post-training paradigms, MAPoRL advocates the co-training of multiple LLMs together using RL for better generalization. Accompanied by analytical insights, our experiments demonstrate that training individual LLMs alone is insufficient to induce effective collaboration. In contrast, multi-agent co-training can boost the collaboration performance across benchmarks, with generalization to unseen domains.
arxiv情報
著者 | Chanwoo Park,Seungju Han,Xingzhi Guo,Asuman Ozdaglar,Kaiqing Zhang,Joo-Kyung Kim |
発行日 | 2025-02-25 18:33:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google