MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning

要約

Large Language Models (LLM) の推論は、テスト時の集計戦略、つまり、複数のサンプルを生成し、生成されたサンプル間で投票することを使用して改善できます。
これらはパフォーマンスを向上させますが、多くの場合、飽和点に達します。
Refinement は、LLM によって生成されたフィードバックを使用してソリューションの品質を向上させる代替手段を提供します。
ただし、リファインメントには次の 3 つの重要な課題があります。 (1) 過度のリファインメント: すべてのインスタンスを均一にリファインすると、過度に修正され、全体的なパフォーマンスが低下する可能性があります。
(2) エラーを特定して対処する能力の欠如: LLM の自己修正能力は限られており、自分自身の間違いを特定して修正するのに苦労しています。
(3) 不十分なリファインメント: 何回リファインメントを繰り返す必要があるかを決定するのは簡単ではなく、すぐに停止するとエラーが解決されないままになる可能性があります。
これらの問題に取り組むために、問題の難易度を簡単か難しいかに分類し、簡単な問題を粗粒度の集計で解決し、難しい問題を粒度の細かい反復的なマルチエージェント絞り込みで解決することで過度の絞り込みを回避する MAgICoRe を提案します。
エラーの位置特定を改善するために、外部の段階的報酬モデル (RM) スコアを組み込みます。
さらに、効果的な改良を確実にするために、ソルバー、レビューアー (段階的な RM スコアに基づいて的を絞ったフィードバックを生成)、リファイナー (フィードバックを組み込む) の 3 つのエージェントによるマルチエージェント ループを採用しています。
十分な改良を確実にするために、更新されたソリューションを再評価し、さらなる改良を繰り返し開始します。
私たちは Llama-3-8B および GPT-3.5 で MAgICoRe を評価し、5 つの数学データセットにわたってその有効性を示します。
MAgICoRe を 1 回反復しただけでも、サンプルの半分未満を使用しながら、Self-Cissistency を 3.4%、Best-of-k を 3.2%、Self-Refine を 4.0% 上回っています。
ベースラインを使用した反復的な改善とは異なり、MAgICoRe は反復を繰り返すことで改善を続けます。
最後に、私たちのアブレーションは、MAgICoRe の RM とマルチエージェントコミュニケーションの重要性を強調しています。

要約(オリジナル)

Large Language Models’ (LLM) reasoning can be improved using test-time aggregation strategies, i.e., generating multiple samples and voting among generated samples. While these improve performance, they often reach a saturation point. Refinement offers an alternative by using LLM-generated feedback to improve solution quality. However, refinement introduces 3 key challenges: (1) Excessive refinement: Uniformly refining all instances can over-correct and reduce the overall performance. (2) Inability to localize and address errors: LLMs have a limited ability to self-correct and struggle to identify and correct their own mistakes. (3) Insufficient refinement: Deciding how many iterations of refinement are needed is non-trivial, and stopping too soon could leave errors unaddressed. To tackle these issues, we propose MAgICoRe, which avoids excessive refinement by categorizing problem difficulty as easy or hard, solving easy problems with coarse-grained aggregation and hard ones with fine-grained and iterative multi-agent refinement. To improve error localization, we incorporate external step-wise reward model (RM) scores. Moreover, to ensure effective refinement, we employ a multi-agent loop with three agents: Solver, Reviewer (which generates targeted feedback based on step-wise RM scores), and the Refiner (which incorporates feedback). To ensure sufficient refinement, we re-evaluate updated solutions, iteratively initiating further rounds of refinement. We evaluate MAgICoRe on Llama-3-8B and GPT-3.5 and show its effectiveness across 5 math datasets. Even one iteration of MAgICoRe beats Self-Consistency by 3.4%, Best-of-k by 3.2%, and Self-Refine by 4.0% while using less than half the samples. Unlike iterative refinement with baselines, MAgICoRe continues to improve with more iterations. Finally, our ablations highlight the importance of MAgICoRe’s RMs and multi-agent communication.

arxiv情報

著者 Justin Chih-Yao Chen,Archiki Prasad,Swarnadeep Saha,Elias Stengel-Eskin,Mohit Bansal
発行日 2024-09-18 17:12:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク