ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs

要約

大規模言語モデル (LLM) は依然として複雑な推論タスクに苦労しています。
心の社会 (Minsky、1988) に触発されて、私たちは、コンセンサスを改善するための多様な思考と議論を促進するために、多様な LLM エージェント間の円卓会議として設計されたマルチモデル マルチエージェント フレームワークである ReConcile を提案します。
ReConcile は、複数ラウンドのディスカッションを開催し、他のエージェントに回答を改善するよう説得する方法を学習し、信頼度に重み付けされた投票メカニズムを採用することで、LLM の推論能力を強化します。
各ラウンドで、ReConcile は「ディスカッション プロンプト」を介してエージェント間のディスカッションを開始します。ディスカッション プロンプトは、(a) 前のラウンドで各エージェントによって生成されたグループ化された回答と説明、(b) それらの不確実性、および (c) 回答を修正する人間のデモンストレーションで構成されます。
他のエージェントを説得するために使用される説明。
このディスカッション プロンプトにより、各エージェントは他のエージェントからの洞察を考慮して応答を修正できます。
コンセンサスに達してディスカッションが終了すると、ReConcile は加重投票スキームにおける各エージェントの信頼度を活用して最終的な回答を決定します。
ChatGPT、Bard、Claude2 の 3 つのエージェントを使用して ReConcile を実装します。
さまざまなベンチマークに関する実験結果は、ReConcile がエージェント (個別およびチームとして) の推論パフォーマンスを大幅に向上させ、以前の単一エージェントおよびマルチエージェントのベースラインを 7.7% 上回り、これらのデータセットの一部では GPT-4 をも上回るパフォーマンスを示していることを示しています。

また、GPT-4 自体を ReConcile のエージェントの 1 つとして実験し、他のエージェントからのディスカッションやフィードバックを通じて、その初期パフォーマンスも絶対的に 10.0% 向上することを実証しました。
最後に、各ラウンド後の精度も分析し、マルチエージェントの討論ベースラインと比較して、ReConcile がエージェント間でより適切かつ迅速なコンセンサスを達成していることを観察しました。
私たちのコードはhttps://github.com/dinobby/ReConcileで入手できます。

要約(オリジナル)

Large Language Models (LLMs) still struggle with complex reasoning tasks. Motivated by the society of minds (Minsky, 1988), we propose ReConcile, a multi-model multi-agent framework designed as a round table conference among diverse LLM agents to foster diverse thoughts and discussion for improved consensus. ReConcile enhances the reasoning capabilities of LLMs by holding multiple rounds of discussion, learning to convince other agents to improve their answers, and employing a confidence-weighted voting mechanism. In each round, ReConcile initiates discussion between agents via a ‘discussion prompt’ that consists of (a) grouped answers and explanations generated by each agent in the previous round, (b) their uncertainties, and (c) demonstrations of answer-rectifying human explanations, used for convincing other agents. This discussion prompt enables each agent to revise their responses in light of insights from other agents. Once a consensus is reached and the discussion ends, ReConcile determines the final answer by leveraging the confidence of each agent in a weighted voting scheme. We implement ReConcile with ChatGPT, Bard, and Claude2 as the three agents. Our experimental results on various benchmarks demonstrate that ReConcile significantly enhances the reasoning performance of the agents (both individually and as a team), surpassing prior single-agent and multi-agent baselines by 7.7% and also outperforming GPT-4 on some of these datasets. We also experiment with GPT-4 itself as one of the agents in ReConcile and demonstrate that its initial performance also improves by absolute 10.0% through discussion and feedback from other agents. Finally, we also analyze the accuracy after every round and observe that ReConcile achieves better and faster consensus between agents, compared to a multi-agent debate baseline. Our code is available at: https://github.com/dinobby/ReConcile

arxiv情報

著者 Justin Chih-Yao Chen,Swarnadeep Saha,Mohit Bansal
発行日 2023-09-22 17:12:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク