A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains

要約

複雑な推論タスクでは、言語モデルにステップバイステップの答えを提供させる (例えば’Chain-of-Thought’)ことが一般的である。最近の文献では、推論ステップを自動的に検証し、その正しさを評価・改善する方法について論じている。しかし、そのような検証方法の徹底的な評価を可能にするような、きめ細かいステップレベルのデータセットはなく、この方向での進歩の妨げとなっている。我々はRevealを紹介する:Reveal:推論検証評価」は、オープンドメインの質問応答設定における複雑なChain-of-Thought推論の自動検証器をベンチマークするための新しいデータセットである。Revealは、多種多様なデータセットと最先端の言語モデルにおいて、言語モデルの回答における各推論ステップの関連性、証拠となる文章への帰属、論理的な正しさを包括的にラベル付けする。

要約(オリジナル)

Prompting language models to provide step-by-step answers (e.g., ‘Chain-of-Thought’) is the prominent approach for complex reasoning tasks, where more accurate reasoning chains typically improve downstream task performance. Recent literature discusses automatic methods to verify reasoning steps to evaluate and improve their correctness. However, no fine-grained step-level datasets are available to enable thorough evaluation of such verification methods, hindering progress in this direction. We introduce Reveal: Reasoning Verification Evaluation, a new dataset to benchmark automatic verifiers of complex Chain-of-Thought reasoning in open-domain question answering settings. Reveal includes comprehensive labels for the relevance, attribution to evidence passages, and logical correctness of each reasoning step in a language model’s answer, across a wide variety of datasets and state-of-the-art language models.

arxiv情報

著者 Alon Jacovi,Yonatan Bitton,Bernd Bohnet,Jonathan Herzig,Or Honovich,Michael Tseng,Michael Collins,Roee Aharoni,Mor Geva
発行日 2024-02-02 07:32:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク