要約
大規模言語モデル (LLM) ベースのマルチエージェント システム (MAS) は、協調的な問題解決において顕著な可能性を示していますが、通信効率の低さ、スケーラビリティの低さ、効果的なパラメータ更新の最適化手法の欠如といった重大な課題に依然として直面しています。
我々は、LLM トレーニングを通じて LLM ベースの MAS における通信効率とタスク効率の両方を大幅に向上させることで、これらの問題に対処する新しいフレームワークである Optima を紹介します。
Optima は、タスクのパフォーマンス、トークンの効率、通信の可読性のバランスをとる報酬関数を備えた、反復的な生成、ランク付け、選択、トレーニングのパラダイムを採用しています。
教師あり微調整、直接優先最適化、およびそれらのハイブリッド アプローチを含むさまざまな RL アルゴリズムを調査し、それらの有効性と効率のトレードオフについての洞察を提供します。
DPO データ生成にモンテカルロ ツリー検索にヒントを得た手法を統合し、会話ターンをツリー ノードとして扱い、多様な対話パスを探索します。
情報非対称な質問応答や複雑な推論などの一般的なマルチエージェント タスクで評価した Optima は、単一エージェントのベースラインや Llama 3 8B ベースのバニラ MAS と比較して、一貫した大幅な改善を示し、10 未満のパフォーマンスで最大 2.8 倍のパフォーマンス向上を達成しました。
大量の情報交換を必要とするタスクのトークンの割合。
さらに、Optima の効率性により、推論計算をより効果的に活用するための新たな可能性が広がり、推論時間のスケーリング則の改善につながります。
LLM ベースの MAS の根本的な課題に対処することで、Optima はスケーラブルで効率的かつ効果的な MAS の可能性を示しています (https://chenweize1998.github.io/optima-project-page)。
要約(オリジナル)
Large Language Model (LLM) based multi-agent systems (MAS) show remarkable potential in collaborative problem-solving, yet they still face critical challenges: low communication efficiency, poor scalability, and a lack of effective parameter-updating optimization methods. We present Optima, a novel framework that addresses these issues by significantly enhancing both communication efficiency and task effectiveness in LLM-based MAS through LLM training. Optima employs an iterative generate, rank, select, and train paradigm with a reward function balancing task performance, token efficiency, and communication readability. We explore various RL algorithms, including Supervised Fine-Tuning, Direct Preference Optimization, and their hybrid approaches, providing insights into their effectiveness-efficiency trade-offs. We integrate Monte Carlo Tree Search-inspired techniques for DPO data generation, treating conversation turns as tree nodes to explore diverse interaction paths. Evaluated on common multi-agent tasks, including information-asymmetric question answering and complex reasoning, Optima shows consistent and substantial improvements over single-agent baselines and vanilla MAS based on Llama 3 8B, achieving up to 2.8x performance gain with less than 10\% tokens on tasks requiring heavy information exchange. Moreover, Optima’s efficiency gains open new possibilities for leveraging inference-compute more effectively, leading to improved inference-time scaling laws. By addressing fundamental challenges in LLM-based MAS, Optima shows the potential towards scalable, efficient, and effective MAS (https://chenweize1998.github.io/optima-project-page).
arxiv情報
| 著者 | Weize Chen,Jiarui Yuan,Chen Qian,Cheng Yang,Zhiyuan Liu,Maosong Sun | 
| 発行日 | 2024-10-10 17:00:06+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
