要約
自動網性言語モデルは、固定された、取り返しのつかない左から右へのトークンの生成のためにエラーを蓄積します。
これに対処するために、Resample-Previous-Tokens(RPT)と呼ばれる新しいサンプリング方法を提案します。
RPTは、以前に生成されたテキストのウィンドウでトークンを繰り返し再検討し、潜在的に交換することにより、エラーの蓄積を軽減します。
この方法は、既存の自己回帰モデルに統合され、次のトークン予測の品質と速度を維持できます。
RPTで100BのRPTを使用して前処理された8Bパラメーターモデルを微調整すると、標準サンプリングと比較して、推論とコーディングベンチマークの相対的な改善が約10%増加しました。
要約(オリジナル)
Autoregressive language models accumulate errors due to their fixed, irrevocable left-to-right token generation. To address this, we propose a new sampling method called Resample-Previous-Tokens (RPT). RPT mitigates error accumulation by iteratively revisiting and potentially replacing tokens in a window of previously generated text. This method can be integrated into existing autoregressive models, preserving their next-token-prediction quality and speed. Fine-tuning a pretrained 8B parameter model with RPT for only 100B resulted in ~10% relative improvements on reasoning and coding benchmarks compared to the standard sampling.
arxiv情報
著者 | Itai Gat,Neta Shaul,Uriel Singer,Yaron Lipman |
発行日 | 2025-06-06 16:21:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google