Corrector Sampling in Language Models

要約

自動網性言語モデルは、固定された、取り返しのつかない左から右へのトークンの生成のためにエラーを蓄積します。
これに対処するために、Resample-Previous-Tokens(RPT)と呼ばれる新しいサンプリング方法を提案します。
RPTは、以前に生成されたテキストのウィンドウでトークンを繰り返し再検討し、潜在的に交換することにより、エラーの蓄積を軽減します。
この方法は、既存の自己回帰モデルに統合され、次のトークン予測の品質と速度を維持できます。
RPTで100BのRPTを使用して前処理された8Bパラメーターモデルを微調整すると、標準サンプリングと比較して、推論とコーディングベンチマークの相対的な改善が約10%増加しました。

要約(オリジナル)

Autoregressive language models accumulate errors due to their fixed, irrevocable left-to-right token generation. To address this, we propose a new sampling method called Resample-Previous-Tokens (RPT). RPT mitigates error accumulation by iteratively revisiting and potentially replacing tokens in a window of previously generated text. This method can be integrated into existing autoregressive models, preserving their next-token-prediction quality and speed. Fine-tuning a pretrained 8B parameter model with RPT for only 100B resulted in ~10% relative improvements on reasoning and coding benchmarks compared to the standard sampling.

arxiv情報

著者 Itai Gat,Neta Shaul,Uriel Singer,Yaron Lipman
発行日 2025-06-06 16:21:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク