Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

要約

大規模な言語モデル(LLMS)は、チェーンオブシャート(COT)の推論を通じて、数学カルタスクで顕著な進歩を遂げています。
ただし、既存の数学COTデータセットは、モデルの学習と一般化に悪影響を与える中間のステップを省略している専門家のために、思考の飛躍に苦しむことがよくあります。
私たちは、コットの完全性と一貫性を復元するために、飛躍を自動的に検出し、欠落している中間推論手順を生成することを目的とするCOTの思考Leap Bridgeタスクを提案します。
これを容易にするために、構造化されたScaleQuestmathデータセットに基づいて、ScaleQM+と呼ばれる専門的なトレーニングデータセットを構築し、トレーニングされたCOT-BRIDGEを使用して思考の飛躍を橋渡ししました。
数学的推論ベンチマークに関する包括的な実験を通じて、ブリッジ付きデータセットで微調整されたモデルは、元のデータセットでトレーニングされたものを一貫して上回ることを実証します。
当社のアプローチは、蒸留データ(+3.02%)を効果的に強化し(+3.02%)、強化学習のためのより良い出発点(+3.1%)を提供し、既存の最適化技術と互換性のあるプラグアンドプレイモジュールとして機能します。
さらに、Cot-Bridgeは、ドメイン外の論理的推論タスクに対する一般化の改善を示しており、推論の完全性を高めることで広く適用される利点が得られることを確認します。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable progress on mathemati-cal tasks through Chain-of-Thought (CoT) reasoning. However, existing mathematical CoT datasets often suffer from Thought Leaps due to experts omitting intermediate steps, which negatively impacts model learning and generalization. We propose the CoT Thought Leap Bridge Task, which aims to automatically detect leaps and generate missing intermediate reasoning steps to restore the completeness and coherence of CoT. To facilitate this, we constructed a specialized training dataset called ScaleQM+, based on the structured ScaleQuestMath dataset, and trained CoT-Bridge to bridge thought leaps. Through comprehensive experiments on mathematical reasoning benchmarks, we demonstrate that models fine-tuned on bridged datasets consistently outperform those trained on original datasets, with improvements of up to +5.87% on NuminaMath. Our approach effectively enhances distilled data (+3.02%) and provides better starting points for reinforcement learning (+3.1%), functioning as a plug-and-play module compatible with existing optimization techniques. Furthermore, CoT-Bridge demonstrate improved generalization to out-of-domain logical reasoning tasks, confirming that enhancing reasoning completeness yields broadly applicable benefits.

arxiv情報

著者 Haolei Xu,Yuchen Yan,Yongliang Shen,Wenqi Zhang,Guiyang Hou,Shengpei Jiang,Kaitao Song,Weiming Lu,Jun Xiao,Yueting Zhuang
発行日 2025-05-20 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク