Can LLMs Beat Humans in Debating? A Dynamic Multi-agent Framework for Competitive Debate

要約

競争的ディベートは、包括的かつ複雑な計算論証タスクです。
大規模言語モデル (LLM) は幻覚に遭遇し、このタスクでは競争力がありません。
これらの課題に対処するために、競争討論における能力を強化するために設計された LLM に基づく動的なマルチエージェント フレームワークである Agent for Debate (Agent4Debate) を導入します。
Agent4Debate は、議論の準備と実行における人間の行動からインスピレーションを得て、4 つの専門エージェント (検索者、分析者、書き込み者、およびレビュー者) が動的に対話し協力する協調アーキテクチャを採用しています。
これらのエージェントは、最初の調査と議論の定式化から反論と要約までの複数の段階をカバーし、議論のプロセス全体を通して活動します。
フレームワークのパフォーマンスを総合的に評価するために、私たちは厳選した 66 の中国語討論モーションからなる中国語討論アリーナを構築しました。
私たちは経験豊富な人間の討論者 10 人を採用し、Agent4Debate、ベースライン モデル、人間が関与する 200 件の討論の記録を収集します。
評価には、Debatrix 自動採点システムと、確立された Debatrix-Elo および Human-Elo ランキングに基づいたプロの人間の審査員が使用されます。
実験結果は、最先端の Agent4Debate が人間と同等の能力を発揮することを示しています。
さらに、アブレーション研究では、薬剤構造の各コンポーネントの有効性が実証されています。

要約(オリジナル)

Competitive debate is a comprehensive and complex computational argumentation task. Large Language Models (LLMs) encounter hallucinations and lack competitiveness in this task. To address these challenges, we introduce Agent for Debate (Agent4Debate), a dynamic, multi-agent framework based on LLMs designed to enhance their capabilities in competitive debate. Drawing inspiration from human behavior in debate preparation and execution, Agent4Debate employs a collaborative architecture where four specialized agents (Searcher, Analyzer, Writer, and Reviewer) dynamically interact and cooperate. These agents work throughout the debate process, covering multiple stages from initial research and argument formulation to rebuttal and summary. To comprehensively evaluate framework performance, we construct the Chinese Debate Arena, comprising 66 carefully selected Chinese debate motions. We recruite ten experienced human debaters and collect records of 200 debates involving Agent4Debate, baseline models, and humans. The evaluation employs the Debatrix automatic scoring system and professional human reviewers based on the established Debatrix-Elo and Human-Elo ranking. Experimental results indicate that the state-of-the-art Agent4Debate exhibits capabilities comparable to those of humans. Furthermore, ablation studies demonstrate the effectiveness of each component in the agent structure.

arxiv情報

著者 Yiqun Zhang,Xiaocui Yang,Shi Feng,Daling Wang,Yifei Zhang,Kaisong Song
発行日 2024-08-08 14:02:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク