BOW: Bottlenecked Next Word Exploration

要約

大規模な言語モデル(LLM)は通常、次の単語予測(NWP)を介してトレーニングされます。これは、強力な表面レベルの流encyさを提供しますが、しばしば堅牢な推論をサポートしていません。
ボトルネックの次のWord Exploration(Bow)を提案します。これは、次のトークンを直接予測するのではなく、ポリシーモデルが最初に推論パスを生成する推論ボトルネックを導入することによりNWPを再考する新しいRLフレームワークであり、その後、この推論パスのみに基づいて次のトークン分布を予測します。
GRPOを使用してPolicyモデルをトレーニングし、推論パスが次の単語の回復をどの程度効果的に促進するかを定量化します。
他の連続前の前脱型ベースラインと比較して、Bowは、さまざまなベンチマークで評価されている基本モデルの一般的および次の単語の推論能力の両方を改善することを示しています。
私たちの調査結果は、弓がバニラNWPの効果的でスケーラブルな代替品として機能できることを示しています。

要約(オリジナル)

Large language models (LLMs) are typically trained via next-word prediction (NWP), which provides strong surface-level fluency but often lacks support for robust reasoning. We propose BOttlenecked next Word exploration (BOW), a novel RL framework that rethinks NWP by introducing a reasoning bottleneck where a policy model first generates a reasoning path rather than predicting the next token directly, after which a frozen judge model predicts the next token distribution based solely on this reasoning path. We train the policy model using GRPO with rewards that quantify how effectively the reasoning path facilitates next-word recovery. Compared with other continual pretraining baselines, we show that BOW improves both the general and next-word reasoning capabilities of the base model, evaluated on various benchmarks. Our findings show that BOW can serve as an effective and scalable alternative to vanilla NWP.

arxiv情報

著者 Ming Shen,Zhikun Xu,Xiao Ye,Jacob Dineen,Ben Zhou
発行日 2025-06-16 13:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク