要約
O1やDeepSeek-R1などの大規模な推論モデル(LRMS)は、長い考え方(COT)を使用して自然言語の推論において顕著な進歩を示していますが、複雑な数学操作を処理する際には非効率的または不正確なままです。
計算ツール(例:計算ライブラリやシンボリックソルバーなど)を介したこれらの制限に対処することは有望ですが、技術的な課題を導入します。コードインタープリター(CI)は、モデルの内部テキスト表現を超えて外部の知識をもたらすため、直接的な組み合わせは効率的ではありません。
このペーパーでは、LRMSにCIを効果的かつ効率的に活用するための訓練後のフレームワークであるCORTを紹介します。
最初のステップとして、LRM-CI相互作用を最適化するために適切な位置に異なるヒントを戦略的に挿入するヒントエンジニアリングを通じて、コード統合推論データを合成することにより、データ不足の問題に対処します。
30の高品質サンプルを手動で作成します。このサンプルは、1.5Bから32Bのパラメーターの範囲のトレイン後モデルを作成し、微調整、拒否の微調整、強化学習を備えています。
私たちの実験結果は、ヒントエンジニアリングモデルが5つの挑戦的な数学的推論データセットにわたって、それぞれdeepseek-r1-distill-qwen-32bおよびdeepseek-r1-distill-qwen-1.5bで4 \%および8 \%の絶対改善を達成することを示しています。
さらに、ヒントエンジニアリングモデルは、32Bモデルでは約30 \%少ないトークンを使用し、自然言語モデルと比較して1.5Bモデルでは50 \%少ないトークンを使用します。
モデルとコードは、https://github.com/chengpengli1003/cortで入手できます。
要約(オリジナル)
Large Reasoning Models (LRMs) like o1 and DeepSeek-R1 have shown remarkable progress in natural language reasoning with long chain-of-thought (CoT), yet they remain inefficient or inaccurate when handling complex mathematical operations. Addressing these limitations through computational tools (e.g., computation libraries and symbolic solvers) is promising, but it introduces a technical challenge: Code Interpreter (CI) brings external knowledge beyond the model’s internal text representations, thus the direct combination is not efficient. This paper introduces CoRT, a post-training framework for teaching LRMs to leverage CI effectively and efficiently. As a first step, we address the data scarcity issue by synthesizing code-integrated reasoning data through Hint-Engineering, which strategically inserts different hints at appropriate positions to optimize LRM-CI interaction. We manually create 30 high-quality samples, upon which we post-train models ranging from 1.5B to 32B parameters, with supervised fine-tuning, rejection fine-tuning and reinforcement learning. Our experimental results demonstrate that Hint-Engineering models achieve 4\% and 8\% absolute improvements on DeepSeek-R1-Distill-Qwen-32B and DeepSeek-R1-Distill-Qwen-1.5B respectively, across five challenging mathematical reasoning datasets. Furthermore, Hint-Engineering models use about 30\% fewer tokens for the 32B model and 50\% fewer tokens for the 1.5B model compared with the natural language models. The models and code are available at https://github.com/ChengpengLi1003/CoRT.
arxiv情報
著者 | Chengpeng Li,Zhengyang Tang,Ziniu Li,Mingfeng Xue,Keqin Bao,Tian Ding,Ruoyu Sun,Benyou Wang,Xiang Wang,Junyang Lin,Dayiheng Liu |
発行日 | 2025-06-11 14:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google