要約
言語モデルは多くの場合、トレーニング データセット内の過去のトークンが与えられた場合に、次のトークンの可能性を最大化するようにトレーニングされます。
ただし、推論時には、これらは別の方法で利用され、以前に生成されたトークンを次のトークンを予測するための入力として使用することによって、テキストを順次かつ自動回帰的に生成します。
各ステップでの予測のわずかな違いが後続のステップに連鎖し、その結果、モデルがトレーニングされたものとは異なる分布が生じ、予測不可能な動作につながる可能性があります。
この論文では、トレーニング時間と推論時間の間のこの不一致に対処するために、モデル自身の生成に基づく 2 つの簡単なアプローチを提案します。
最初のアプローチはバッチスケジュールされたサンプリングです。これは、トレーニング中に、データセットからのグラウンドトゥルース トークンと、次のトークンを予測するための入力としてモデル自身が生成したトークンのどちらかを確率的に選択します。
これはオフラインで行われ、グラウンドトゥルース トークンとモデルによって生成されたトークンをインターリーブすることでコンテキスト ウィンドウを変更します。
2 番目のアプローチは、参照回答ベースの修正です。ここでは、トレーニング中にモデルに自己修正機能を明示的に組み込みます。
これにより、モデルは外部のオラクル モデルに依存せずに、生成されたシーケンスとグランド トゥルース データの間のギャップを効果的に自己修正できるようになります。
トレーニング中に提案された戦略を組み込むことにより、要約、一般的な質問への回答、および数学への質問への回答タスクを使用した広範な実験で実証されたように、ベースラインの方法と比較して全体的なパフォーマンスの向上が観察されました。
要約(オリジナル)
Language models are often trained to maximize the likelihood of the next token given past tokens in the training dataset. However, during inference time, they are utilized differently, generating text sequentially and auto-regressively by using previously generated tokens as input to predict the next one. Marginal differences in predictions at each step can cascade over successive steps, resulting in different distributions from what the models were trained for and potentially leading to unpredictable behavior. This paper proposes two simple approaches based on model own generation to address this discrepancy between the training and inference time. Our first approach is Batch-Scheduled Sampling, where, during training, we stochastically choose between the ground-truth token from the dataset and the model’s own generated token as input to predict the next token. This is done in an offline manner, modifying the context window by interleaving ground-truth tokens with those generated by the model. Our second approach is Reference-Answer-based Correction, where we explicitly incorporate a self-correction capability into the model during training. This enables the model to effectively self-correct the gaps between the generated sequences and the ground truth data without relying on an external oracle model. By incorporating our proposed strategies during training, we have observed an overall improvement in performance compared to baseline methods, as demonstrated by our extensive experiments using summarization, general question-answering, and math question-answering tasks.
arxiv情報
著者 | Zhepeng Cen,Yao Liu,Siliang Zeng,Pratik Chaudhar,Huzefa Rangwala,George Karypis,Rasool Fakoor |
発行日 | 2024-10-18 17:48:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google