要約
大規模な言語モデル(LLM)は、数学的問題を解決する際に顕著な推論能力を示しています。
ただし、既存のアプローチは、主に正しいトレーニングデータの品質を改善することに焦点を当てています。たとえば、高品質の正しいソリューションを高度なモデルから蒸留し、エラーデータに含まれる値を無視し、モデルの反射能力を妨げる可能性があります。
一部の研究ではエラーデータを活用しようとしていますが、多くの場合、モンテカルロツリー検索(MCTS)などの複雑なメカニズムが含まれてエラーノードを調査します。
この作業では、数学的進歩(補題)のエラーから学習することにより、LLMSの推論能力を高めることを提案します。
Lemmaは、誤ったステップを備えた誤ったソリューションと微調整のための正しいソリューションへの反射接続で構成されるデータを構築します。
具体的には、モデル生成エラータイプを体系的に分析し、多様で代表的なエラーを収集するためにエラー型の根拠のあるミスの増強方法を導入します。
正しいソリューションは、エラーの修正または新たなスタートの生成によるものです。
モデル認識のスムーズな反射接続を通じて、誤ったソリューションが正しいソリューションに転送されます。
構築されたデータセットで微調整することにより、モデルは、外部の批評モデルに依存することなく、生成プロセス内で自律的にエラーを自己修正することができます。
実験結果は、補題が他の強力なベースラインよりも大幅なパフォーマンスの改善を達成することを示しています。
要約(オリジナル)
Large language models (LLMs) have demonstrated remarkable reasoning capability in solving mathematical problems. However, existing approaches primarily focus on improving the quality of correct training data, e.g., distilling high-quality correct solutions from advanced models, neglecting the value contained in error data, potentially hindering the model’s reflective ability. Though some studies attempt to leverage error data, they often involve complex mechanisms, such as Monte Carlo Tree Search (MCTS) to explore error nodes. In this work, we propose to enhance LLMs’ reasoning ability by Learning from Errors for Mathematical Advancement (LEMMA). LEMMA constructs data consisting of an incorrect solution with an erroneous step and a reflection connection to a correct solution for fine-tuning. Specifically, we systematically analyze the model-generated error types and introduce an error-type grounded mistake augmentation method to collect diverse and representative errors. Correct solutions are either from fixing the errors or generating a fresh start. Through a model-aware smooth reflection connection, the erroneous solution is transferred to the correct one. By fine-tuning on the constructed dataset, the model is able to self-correct errors autonomously within the generation process without relying on external critique models. Experimental results demonstrate that LEMMA achieves significant performance improvements over other strong baselines.
arxiv情報
著者 | Zhuoshi Pan,Yu Li,Honglin Lin,Qizhi Pei,Zinan Tang,Wei Wu,Chenlin Ming,H. Vicky Zhao,Conghui He,Lijun Wu |
発行日 | 2025-05-30 15:19:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google