Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs

要約

大規模言語モデル (LLM) の最近の進歩により、LLM がさまざまなドメインの問い合わせに応答できる可能性が強調されています。
ただし、生成エージェントが正確で信頼できる回答を提供することを保証することは、依然として継続的な課題です。
これに関連して、マルチエージェント ディベート (MAD) が、LLM の真実性を高めるための有望な戦略として浮上しています。
私たちは、コスト、時間、精度の間のトレードオフを調査するために、さまざまな議論やプロンプト戦略をベンチマークします。
重要なことに、現在の形式では、マルチエージェントディベートシステムは、自己一貫性や複数の推論パスを使用したアンサンブルなど、提案されている他のプロンプト戦略を確実に上回るパフォーマンスを発揮しないことがわかりました。
ただし、ハイパーパラメータ調整を実行する場合、マルチペルソナなどのいくつかの MAD システムのパフォーマンスが向上します。
これは、MAD プロトコルが他のアプローチよりも本質的に劣っているわけではないが、さまざまなハイパーパラメーター設定の影響を受けやすく、最適化が難しいことを示唆しています。
これらの結果に基づいて、エージェントの合意レベルの調整など、ディベート戦略を改善するための洞察を提供します。これにより、パフォーマンスが大幅に向上し、評価した他のすべての非ディベート プロトコルをも上回ることができます。
私たちは、人気のある研究データセット全体でベンチマークを行うための評価スクリプトとともに、いくつかの最先端のプロトコルを備えたオープンソース リポジトリをコミュニティに提供します。

要約(オリジナル)

Recent advancements in large language models (LLMs) underscore their potential for responding to inquiries in various domains. However, ensuring that generative agents provide accurate and reliable answers remains an ongoing challenge. In this context, multi-agent debate (MAD) has emerged as a promising strategy for enhancing the truthfulness of LLMs. We benchmark a range of debating and prompting strategies to explore the trade-offs between cost, time, and accuracy. Importantly, we find that multi-agent debating systems, in their current form, do not reliably outperform other proposed prompting strategies, such as self-consistency and ensembling using multiple reasoning paths. However, when performing hyperparameter tuning, several MAD systems, such as Multi-Persona, perform better. This suggests that MAD protocols might not be inherently worse than other approaches, but that they are more sensitive to different hyperparameter settings and difficult to optimize. We build on these results to offer insights into improving debating strategies, such as adjusting agent agreement levels, which can significantly enhance performance and even surpass all other non-debate protocols we evaluated. We provide an open-source repository to the community with several state-of-the-art protocols together with evaluation scripts to benchmark across popular research datasets.

arxiv情報

著者 Andries Smit,Paul Duckworth,Nathan Grinsztajn,Thomas D. Barrett,Arnu Pretorius
発行日 2024-03-14 10:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク