要約
単一の大規模言語モデルが長年にわたり人工知能の展望を支配してきた時代において、マルチエージェントシステムは会話タスク解決における新たな主人公として登場した。これまでの研究では、推論タスクや創造的な試みにおけるマルチエージェントの可能性が示されてきたが、会話パラダイムや個々のエージェントの影響に関する限界の分析は欠落している。マルチエージェントによるディスカッションが、様々な複雑さのタスクにおいてどのように機能するのか、また、これらの会話の構造がプロセスにどのような影響を与えるのか、依然として不明である。このギャップを埋めるために、本研究では、様々なディスカッションパラダイムにわたるマルチエージェントシステムを体系的に評価し、生成タスクと質問応答タスクの両方における強みと弱みを評価する。実験と並行して、2022年から2024年までの20のマルチエージェント研究の分類法を提案し、会話タスク解決におけるマルチエージェントLLMを展開するためのフレームワークを紹介する。私は、マルチエージェントシステムが複雑な推論タスクにおいて、専門家のペルソナを活用することで単一モデルを凌駕する優れた能力を発揮する一方で、基本的なタスクでは失敗することを実証する。具体的には、以下の3つの課題がある。1) 長時間の議論は推論を向上させるが、エージェントは厳格なタスク要件への適合性を維持できず、問題ドリフトを引き起こす。2) 長時間のディスカッションはアライメント崩壊の危険性があり、システムの安全性に新たな懸念をもたらす。3) 長い世代による議論の独占を示し、要約のようなタスクの意思決定における公平性の問題を提起する。この研究は、マルチエージェント相互作用と様々な会話パラダイムで生じる可能性と課題の両方を明らかにし、今後の研究がマルチエージェントLLMの効率、性能、安全性をどのように改善できるかについての洞察を提供する。
要約(オリジナル)
In an era where single large language models have dominated the landscape of artificial intelligence for years, multi-agent systems arise as new protagonists in conversational task-solving. While previous studies have showcased their potential in reasoning tasks and creative endeavors, an analysis of their limitations concerning the conversational paradigms and the impact of individual agents is missing. It remains unascertained how multi-agent discussions perform across tasks of varying complexity and how the structure of these conversations influences the process. To fill that gap, this work systematically evaluates multi-agent systems across various discussion paradigms, assessing their strengths and weaknesses in both generative tasks and question-answering tasks. Alongside the experiments, I propose a taxonomy of 20 multi-agent research studies from 2022 to 2024, followed by the introduction of a framework for deploying multi-agent LLMs in conversational task-solving. I demonstrate that while multi-agent systems excel in complex reasoning tasks, outperforming a single model by leveraging expert personas, they fail on basic tasks. Concretely, I identify three challenges that arise: 1) While longer discussions enhance reasoning, agents fail to maintain conformity to strict task requirements, which leads to problem drift, making shorter conversations more effective for basic tasks. 2) Prolonged discussions risk alignment collapse, raising new safety concerns for these systems. 3) I showcase discussion monopolization through long generations, posing the problem of fairness in decision-making for tasks like summarization. This work uncovers both the potential and challenges that arise with multi-agent interaction and varying conversational paradigms, providing insights into how future research could improve the efficiency, performance, and safety of multi-agent LLMs.
arxiv情報
著者 | Jonas Becker |
発行日 | 2024-11-01 12:37:10+00:00 |
arxivサイト | arxiv_id(pdf) |