A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains

要約

言語モデルに段階的な回答 (「思考の連鎖」など) を提供するよう促すことは、複雑な推論タスクに対する顕著なアプローチであり、通常、より正確な推論チェーンが下流のタスクのパフォーマンスを向上させます。
最近の文献では、推論ステップを検証してその正しさを評価および改善するための自動方法について説明しています。
しかし、そのような検証方法の徹底的な評価を可能にする、きめの細かいステップレベルのデータセットは利用できず、この方向への進歩が妨げられています。
オープンドメインの質問応答設定における複雑な思考連鎖推論の自動検証機能をベンチマークするための新しいデータセットである Reveal: Reasoning Verification Evaluation を紹介します。
Reveal には、さまざまなデータセットと最先端の言語モデルにわたる、言語モデルの回答における各推論ステップの関連性、証拠の一節への帰属、論理的正しさに関する包括的なラベルが含まれています。

要約(オリジナル)

Prompting language models to provide step-by-step answers (e.g., ‘Chain-of-Thought’) is the prominent approach for complex reasoning tasks, where more accurate reasoning chains typically improve downstream task performance. Recent literature discusses automatic methods to verify reasoning steps to evaluate and improve their correctness. However, no fine-grained step-level datasets are available to enable thorough evaluation of such verification methods, hindering progress in this direction. We introduce Reveal: Reasoning Verification Evaluation, a new dataset to benchmark automatic verifiers of complex Chain-of-Thought reasoning in open-domain question answering settings. Reveal includes comprehensive labels for the relevance, attribution to evidence passages, and logical correctness of each reasoning step in a language model’s answer, across a wide variety of datasets and state-of-the-art language models.

arxiv情報

著者 Alon Jacovi,Yonatan Bitton,Bernd Bohnet,Jonathan Herzig,Or Honovich,Michael Tseng,Michael Collins,Roee Aharoni,Mor Geva
発行日 2024-02-01 12:46:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク