Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM’s Reasoning Capability

要約

数学的推論タスクは、正確な論理演繹とシーケンス分析を必要とするため、大規模言語モデル (LLM) にとって大きな課題となります。
この研究では、クリティカル トークンの概念、つまり誤った結果に大きな影響を与える推論軌道内の要素を導入します。
私たちは、ロールアウト サンプリングを通じてこれらのトークンを識別するための新しいフレームワークを提示し、従来のエラー トークンからの実質的な相違を実証します。
GSM8K や MATH500 などのデータセットに対する広範な実験を通じて、重要なトークンを特定して置換することでモデルの精度が大幅に向上することを示しました。
私たちは、対比推定を使用して大規模なデータセット内のこれらのトークンを正確に特定するための効率的な方法論を提案し、このフレームワークを拡張して直接優先最適化 (DPO) を使用してモデルのトレーニング プロセスを強化します。
広く使用されているモデル Llama-3 (8B および 70B) および Deepseek-math (7B) を使用した GSM8K および MATH500 ベンチマークの実験結果は、提案されたアプローチである cDPO の有効性を示しています。
私たちの結果は、重要なトークンを活用して推論タスクのエラーを削減し、堅牢な論理推論が可能な AI システムの開発を進める可能性を強調しています。
この有望な分野での将来の研究をサポートし、奨励するために、私たちのコード、注釈付きデータセット、トレーニングされたモデルは https://github.com/chenzhiling9954/Critical-Tokens-Matter で入手できます。

要約(オリジナル)

Mathematical reasoning tasks pose significant challenges for large language models (LLMs) because they require precise logical deduction and sequence analysis. In this work, we introduce the concept of critical tokens — elements within reasoning trajectories that significantly influence incorrect outcomes. We present a novel framework for identifying these tokens through rollout sampling and demonstrate their substantial divergence from traditional error tokens. Through extensive experiments on datasets such as GSM8K and MATH500, we show that identifying and replacing critical tokens significantly improves model accuracy. We propose an efficient methodology for pinpointing these tokens in large-scale datasets using contrastive estimation and extend this framework to enhance model training processes with direct preference optimization (DPO). Experimental results on GSM8K and MATH500 benchmarks with the widely used models Llama-3 (8B and 70B) and Deepseek-math (7B) demonstrate the effectiveness of the proposed approach, cDPO. Our results underscore the potential of leveraging critical tokens to reduce errors in reasoning tasks, advancing the development of AI systems capable of robust logical deduction. Our code, annotated datasets, and trained models are available at https://github.com/chenzhiling9954/Critical-Tokens-Matter to support and encourage future research in this promising field.

arxiv情報

著者 Zicheng Lin,Tian Liang,Jiahao Xu,Qiuzhi Lin,Xing Wang,Ruilin Luo,Chufan Shi,Siheng Li,Yujiu Yang,Zhaopeng Tu
発行日 2025-01-13 06:53:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク