A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains

要約

言語モデルに段階的な回答 (「思考の連鎖」など) を提供するよう促すことは、複雑な推論タスクに対する顕著なアプローチであり、通常、より正確な推論チェーンが下流のタスクのパフォーマンスを向上させます。
最近の文献では、推論の正しさを評価および改善するために推論を検証する自動方法について説明しています。
しかし、そのような検証方法の徹底的な評価を可能にする、きめの細かいステップレベルのデータセットは利用できず、この方向への進歩が妨げられています。
オープンドメインの質問応答設定における複雑な思考連鎖推論の自動検証機能をベンチマークするデータセットである REVEAL: Reasoning Verification Evaluation を紹介します。
REVEAL には、さまざまなデータセットと最先端の言語モデルにわたる、言語モデルの回答における各推論ステップの関連性、証拠の一節への帰属、論理的正しさに関する包括的なラベルが含まれています。
REVEAL の評価では、検証者が推論チェーンの検証、特に論理的な正しさの検証と矛盾の検出に苦労していることがわかります。

要約(オリジナル)

Prompting language models to provide step-by-step answers (e.g., ‘Chain-of-Thought’) is the prominent approach for complex reasoning tasks, where more accurate reasoning chains typically improve downstream task performance. Recent literature discusses automatic methods to verify reasoning to evaluate and improve their correctness. However, no fine-grained step-level datasets are available to enable thorough evaluation of such verification methods, hindering progress in this direction. We introduce REVEAL: Reasoning Verification Evaluation, a dataset to benchmark automatic verifiers of complex Chain-of-Thought reasoning in open-domain question-answering settings. REVEAL includes comprehensive labels for the relevance, attribution to evidence passages, and logical correctness of each reasoning step in a language model’s answer, across a variety of datasets and state-of-the-art language models. Evaluation on REVEAL shows that verifiers struggle at verifying reasoning chains – in particular, verifying logical correctness and detecting contradictions.

arxiv情報

著者 Alon Jacovi,Yonatan Bitton,Bernd Bohnet,Jonathan Herzig,Or Honovich,Michael Tseng,Michael Collins,Roee Aharoni,Mor Geva
発行日 2024-02-13 09:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク