LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback

要約

数学的検証者は、解の正しさを検証することで数学的推論タスクを成功させます。
ただし、既存の検証者はバイナリ分類ラベルを使用してトレーニングされているため、モデルがソリューションを正確に評価するには十分な情報が得られません。
前述のバイナリ ラベルの不十分さを軽減するために、根拠ラベル (つまり、現在のステップと説明の正しさ) として段階的な自然言語フィードバックを導入します。
この論文では、自動生成されたトレーニング データと効果的なトレーニングと効率的な推論のための 2 段階のトレーニング パラダイムを構築することにより、自然言語フィードバックを強化した検証器である \textbf{Math-Minos} を提案します。
私たちの実験では、自然言語フィードバックの小さなセット (30k) が、GSM8K では 1.6\% (86.6\% $\rightarrow$ 88.2\%)、GSM8K では 0.8\% (37.8\) の精度で検証器のパフォーマンスを大幅に向上させることができることを明らかにしました。
% $\rightarrow$ 38.6\%) を MATH で使用します。
さらなる調査のためにコードとデータをリリースしました。

要約(オリジナル)

Mathematical verfier achieves success in mathematical reasoning tasks by validating the correctness of solutions. However, existing verifiers are trained with binary classification labels, which are not informative enough for the model to accurately assess the solutions. To mitigate the aforementioned insufficiency of binary labels, we introduce step-wise natural language feedbacks as rationale labels (i.e., the correctness of the current step and the explanations). In this paper, we propose \textbf{Math-Minos}, a natural language feedback enhanced verifier by constructing automatically-generated training data and a two-stage training paradigm for effective training and efficient inference. Our experiments reveal that a small set (30k) of natural language feedbacks can significantly boost the performance of the verifier by the accuracy of 1.6\% (86.6\% $\rightarrow$ 88.2\%) on GSM8K and 0.8\% (37.8\% $\rightarrow$ 38.6\%) on MATH. We have released our code and data for further exploration.

arxiv情報

著者 Bofei Gao,Zefan Cai,Runxin Xu,Peiyi Wang,Ce Zheng,Runji Lin,Keming Lu,Dayiheng Liu,Chang Zhou,Wen Xiao,Junjie Hu,Tianyu Liu,Baobao Chang
発行日 2024-07-08 08:37:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク