要約
ラージ・ランゲージ・モデル(LLM)は、基本的な算数から高度な競技レベルの問題まで、幅広いタスクに取り組み、強力な数学的推論能力を示してきた。しかし、計算ミスや誤った置換など、微妙でありながら重大なミスが頻繁に発生するため、LLMの潜在能力は十分に発揮できない。数学的能力を向上させるための既存の研究では、段階的な解のペアに選好学習を適用することが一般的である。これらの方法は、推論エラーを軽減するために様々な粒度のサンプルを活用するが、重要な微妙なエラーを見落とす。RISEは、あらかじめ定義された微妙なエラーを推論や計算ステップの重要なトークンに注入し、エラー緩和のためのハードペアを構築する。詳細には、RISEはLLM自身を用いて、解の中の少数のトークンを編集し、設計された微妙なエラーを注入する。そして、自己編集された解とそれに対応する正しい解からなるペアと、サンプリングによって得られた正しい解と正しくない解のペアを、微妙な誤りを考慮したDPO学習に併用する。他の嗜好学習手法と比較して、RISEはきめ細かいサンプリングや嗜好注釈を必要とせずに、学習目的をさらに洗練させる。RISEの有効性は、Qwen2-7B-Instructでの嗜好学習により、わずか4.5Kの学習サンプルで、GSM8Kで3.0%、MATHで7.9%という顕著な改善が見られ、広範な実験により検証されている。さらに、エラー緩和の効果は数学的推論から論理的推論やコード生成にまで及ぶ。
要約(オリジナル)
Large Language Models (LLMs) have exhibited strong mathematical reasoning prowess, tackling tasks ranging from basic arithmetic to advanced competition-level problems. However, frequently occurring subtle yet critical errors, such as miscalculations or incorrect substitutions, limit the LLMs’ full potential. Existing studies to improve mathematical ability typically involve applying preference learning to step-wise solution pairs. Although these methods leverage samples of varying granularity to mitigate reasoning errors, they overlook critical subtle errors. In this work, we propose a novel preference learning framework called eRror-Injected Self-Editing (RISE), which injects predefined subtle errors into pivotal tokens in reasoning or computation steps to construct hard pairs for error mitigation. In detail, RISE uses the LLM itself to edit a small number of tokens in the solution, injecting designed subtle errors. Then, pairs composed of self-edited solutions and their corresponding correct ones, along with pairs of correct and incorrect solutions obtained through sampling, are used together for subtle error-aware DPO training. Compared with other preference learning methods, RISE further refines the training objective without requiring fine-grained sampling or preference annotation. Extensive experiments validate the effectiveness of RISE, with preference learning on Qwen2-7B-Instruct yielding notable improvements of 3.0% on GSM8K and 7.9% on MATH with only 4.5K training samples. Moreover, the effect of error mitigation extends from mathematical reasoning to logical reasoning and code generation.
arxiv情報
著者 | Kaishuai Xu,Tiezheng Yu,Wenjun Hou,Yi Cheng,Chak Tou Leong,Liangyou Li,Xin Jiang,Lifeng Shang,Qun Liu,Wenjie Li |
発行日 | 2025-03-03 07:09:42+00:00 |
arxivサイト | arxiv_id(pdf) |