On Learning Verifiers for Chain-of-Thought Reasoning

要約

考え方の推論は、複雑な数学的および論理的な問題を解決するための強力なアプローチとして浮上しています。
ただし、しばしば、誤ったまたは根拠のない推論を介して軌道を軌道に乗せることができます。
正式な数学的推論は、正式な検証剤で確認できるが、この問題に対処するための1つのアプローチです。
ただし、現在、LLMは複雑な問題を正式な方法で解決するのに十分ではなく、非公式の問題声明を正式にすることでさえ、困難な場合があります。
この事実に動機付けられて、この作業では、自然言語の考え方の推論のための信頼できる検証因子を学ぶ問題を検討します。
つまり、自然言語での問題の声明と段階的な解決策が与えられると、検証剤の目的は、ソリューションの推論ステップがすべて有効である場合、[はい]出力です。
この作業では、この問題を研究するための正式なPACラーニングフレームワークを提供します。
このフレームワークでは、さまざまなレベルの強度で、いくつかの自然検証目標を提案して分析します。
これらの目標を満たす学習検証者のためのサンプルの複雑さの上限と、追加の仮定なしで他の自然検証目標を学習するための低バウンドおよび不可能性の結果を提供します。

要約(オリジナル)

Chain-of-Thought reasoning has emerged as a powerful approach for solving complex mathematical and logical problems. However, it can often veer off track through incorrect or unsubstantiated inferences. Formal mathematical reasoning, which can be checked with a formal verifier, is one approach to addressing this issue. However, currently LLMs are simply not good enough to solve complex problems in a formal way, and even just formalizing an informal problem statement can be challenging. Motivated by this fact, in this work we consider the problem of learning reliable verifiers for natural language Chain-of-Thought reasoning. That is, given a problem statement and step-by-step solution in natural language, the aim of the verifier is to output [Yes] if the reasoning steps in the solution are all valid, and [No] otherwise. In this work we give a formal PAC-learning framework for studying this problem. We propose and analyze several natural verification goals, at different levels of strength, in this framework. We provide sample complexity upper-bounds for learning verifiers satisfying these goals, as well as lower-bound and impossibility results for learning other natural verification objectives without additional assumptions.

arxiv情報

著者 Maria-Florina Balcan,Avrim Blum,Zhiyuan Li,Dravyansh Sharma
発行日 2025-05-28 17:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク