Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM’s Reasoning Capability

要約

大規模言語モデル (LLM) は、推論タスクで顕著なパフォーマンスを示しました。
自己回帰トークン生成を利用して推論軌道を構築し、一貫した思考連鎖の開発を可能にします。
この研究では、推論タスクの最終結果に対する個々のトークンの影響を調査します。
私たちは、LLM で誤った推論軌道を導く「クリティカル トークン」の存在を特定しました。
具体的には、LLM は、重要なトークンではなく他のトークンのデコードを強制された場合に、肯定的な結果を生み出す傾向があることがわかりました。
この観察に動機付けられて、私たちは調整プロセス中に重要なトークンに対するトークンレベルの報酬を自動的に認識して実行するように設計された新しいアプローチ、cDPO を提案します。
具体的には、重要なトークンを自動的に識別する対照的な推定アプローチを開発します。
これは、ポジティブ モデルとネガティブ モデルの生成の可能性を比較することによって実現されます。
これを達成するために、さまざまな推論軌跡に基づいてポジティブ モデルとネガティブ モデルを個別に微調整します。その結果、誤った結果に寄与する誤った軌跡内で重要なトークンを特定できるようになります。
さらに、調整プロセス中にモデルを重要なトークン情報とさらに調整するために、従来の DPO アルゴリズムをトークン レベルの DPO に拡張し、前述の正および負のモデルからの差分尤度をトークン レベルの DPO 学習の重要な重みとして利用します。
広く使用されている 2 つのモデル Llama-3 (8B および 70B) と deepseek-math (7B) を使用した GSM8K および MATH500 ベンチマークの実験結果は、
提案されたアプローチ cDPO。

要約(オリジナル)

Large Language Models (LLMs) have exhibited remarkable performance on reasoning tasks. They utilize autoregressive token generation to construct reasoning trajectories, enabling the development of a coherent chain of thought. In this work, we explore the impact of individual tokens on the final outcomes of reasoning tasks. We identify the existence of “critical tokens” that lead to incorrect reasoning trajectories in LLMs. Specifically, we find that LLMs tend to produce positive outcomes when forced to decode other tokens instead of critical tokens. Motivated by this observation, we propose a novel approach – cDPO – designed to automatically recognize and conduct token-level rewards for the critical tokens during the alignment process. Specifically, we develop a contrastive estimation approach to automatically identify critical tokens. It is achieved by comparing the generation likelihood of positive and negative models. To achieve this, we separately fine-tune the positive and negative models on various reasoning trajectories, consequently, they are capable of identifying identify critical tokens within incorrect trajectories that contribute to erroneous outcomes. Moreover, to further align the model with the critical token information during the alignment process, we extend the conventional DPO algorithms to token-level DPO and utilize the differential likelihood from the aforementioned positive and negative model as important weight for token-level DPO learning.Experimental results on GSM8K and MATH500 benchmarks with two-widely used models Llama-3 (8B and 70B) and deepseek-math (7B) demonstrate the effectiveness of the propsoed approach cDPO.

arxiv情報

著者 Zicheng Lin,Tian Liang,Jiahao Xu,Xing Wang,Ruilin Luo,Chufan Shi,Siheng Li,Yujiu Yang,Zhaopeng Tu
発行日 2024-11-29 18:58:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク