Can LLMs Beat Humans in Debating? A Dynamic Multi-agent Framework for Competitive Debate

要約

競争的な議論は、計算論証の複雑なタスクです。
大規模言語モデル (LLM) は幻覚に悩まされており、この分野での競争力に欠けています。
これらの課題に対処するために、競争討論における能力を強化するために設計された LLM に基づく動的なマルチエージェント フレームワークである Agent for Debate (Agent4Debate) を導入します。
Agent4Debate は、ディベートの準備と実行における人間の行動からインスピレーションを得て、サーチャー、アナライザー、ライター、レビューアーを含む 4 つの専門エージェントが動的に対話し協力する協調アーキテクチャを採用しています。
これらのエージェントは、最初の調査と議論の定式化から反論と要約までの複数の段階をカバーし、議論のプロセス全体を通して活動します。
フレームワークのパフォーマンスを総合的に評価するために、私たちは厳選された 66 の中国の討論モーションからなる競争討論アリーナを構築しました。
私たちは経験豊富な人間の討論者 10 人を採用し、Agent4Debate、ベースライン モデル、人間が関与する 200 件の討論の記録を収集します。
評価には、Debatrix 自動採点システムと、確立された Debatrix-Elo および Human-Elo ランキングに基づいたプロの人間の審査員が使用されます。
実験結果は、最先端の Agent4Debate が人間と同等の能力を発揮することを示しています。
さらに、アブレーション研究では、薬剤構造の各コンポーネントの有効性が実証されています。

要約(オリジナル)

Competitive debate is a complex task of computational argumentation. Large Language Models (LLMs) suffer from hallucinations and lack competitiveness in this field. To address these challenges, we introduce Agent for Debate (Agent4Debate), a dynamic multi-agent framework based on LLMs designed to enhance their capabilities in competitive debate. Drawing inspiration from human behavior in debate preparation and execution, Agent4Debate employs a collaborative architecture where four specialized agents, involving Searcher, Analyzer, Writer, and Reviewer, dynamically interact and cooperate. These agents work throughout the debate process, covering multiple stages from initial research and argument formulation to rebuttal and summary. To comprehensively evaluate framework performance, we construct the Competitive Debate Arena, comprising 66 carefully selected Chinese debate motions. We recruit ten experienced human debaters and collect records of 200 debates involving Agent4Debate, baseline models, and humans. The evaluation employs the Debatrix automatic scoring system and professional human reviewers based on the established Debatrix-Elo and Human-Elo ranking. Experimental results indicate that the state-of-the-art Agent4Debate exhibits capabilities comparable to those of humans. Furthermore, ablation studies demonstrate the effectiveness of each component in the agent structure.

arxiv情報

著者 Yiqun Zhang,Xiaocui Yang,Shi Feng,Daling Wang,Yifei Zhang,Kaisong Song
発行日 2024-08-20 12:36:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク