Rationale-Aware Answer Verification by Pairwise Self-Evaluation

要約

回答検証では、大規模言語モデル (LLM) によって生成された候補の中から正しい解決策を特定します。
現在のアプローチは通常、最終的な答えがゴールドアンサーと一致するかどうかのみに基づいて、ソリューションを正解または不正解としてラベル付けすることによって検証者モデルをトレーニングします。
ただし、このアプローチでは、正解をもたらすソリューション内の欠陥のある理論的根拠が無視され、健全な理論的根拠と欠陥のある理論的根拠を区別する検証者の能力が損なわれます。
私たちは、StrategyQA では、正しい答えを持つ LLM 生成のソリューションのうち、有効な根拠を持っているのは 19% のみであるため、検証者の信頼性が低いことを経験的に示しています。
さらに、有効な根拠について検証者をトレーニングすると、有効な根拠と欠陥のある根拠を区別する能力が大幅に向上することを実証します。
人間による追加の監督なしでより優れた検証者を作成するために、ソリューションを生成するのと同じ LLM を使用してペアごとの自己評価を繰り返し適用することによって、候補から有効な根拠を選択する方法である REPS (ペアワイズ選択による根拠強化) を導入します。
REPS によって選択されたソリューションでトレーニングされた検証者は、3 つの推論ベンチマーク (ARC-Challenge、DROP、StrategyQA) で従来のトレーニング方法を使用してトレーニングされた検証者よりも優れたパフォーマンスを発揮します。
私たちの結果は、信頼できる検証者のトレーニングには、最終的な答えの正しさに加えて根拠の妥当性を保証する必要があることを示唆しています。これは、人間が複雑な推論タスクを解決するのを支援するモデルにとって重要です。

要約(オリジナル)

Answer verification identifies correct solutions among candidates generated by large language models (LLMs). Current approaches typically train verifier models by labeling solutions as correct or incorrect based solely on whether the final answer matches the gold answer. However, this approach neglects any flawed rationale in the solution yielding the correct answer, undermining the verifier’s ability to distinguish between sound and flawed rationales. We empirically show that in StrategyQA, only 19% of LLM-generated solutions with correct answers have valid rationales, thus leading to an unreliable verifier. Furthermore, we demonstrate that training a verifier on valid rationales significantly improves its ability to distinguish valid and flawed rationale. To make a better verifier without extra human supervision, we introduce REPS (Rationale Enhancement through Pairwise Selection), a method for selecting valid rationales from candidates by iteratively applying pairwise self-evaluation using the same LLM that generates the solutions. Verifiers trained on solutions selected by REPS outperform those trained using conventional training methods on three reasoning benchmarks (ARC-Challenge, DROP, and StrategyQA). Our results suggest that training reliable verifiers requires ensuring the validity of rationales in addition to the correctness of the final answers, which would be critical for models assisting humans in solving complex reasoning tasks.

arxiv情報

著者 Akira Kawabata,Saku Sugawara
発行日 2024-10-25 09:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク