Meet in the Middle: A New Pre-training Paradigm

要約

ほとんどの言語モデル (LM) は、次のトークンが前のトークンのみに依存すると仮定して、左から右への自己回帰方式でトレーニングおよび適用されます。
ただし、この仮定は、トレーニング中に完全なシーケンス情報を使用することの潜在的な利点と、推論中に両側からのコンテキストを持つ可能性を無視しています。
このホワイトペーパーでは、トレーニングデータの効率と充填タスクにおけるLMの機能を共同で改善する手法を使用して、新しい事前トレーニングパラダイムを提案します。
1 つ目は、左から右への LM の予測を右から左への LM の予測と一致させるトレーニング目標であり、同じデータで逆順でトレーニングされます。
2 つ目は、両方の LM が途中で出会うことを可能にする双方向の推論手順です。
プログラミングと自然言語モデルの両方で広範な実験を行い、強力なベースラインよりも優れた事前トレーニング パラダイムの有効性を示します。

要約(オリジナル)

Most language models (LMs) are trained and applied in an autoregressive left-to-right fashion, assuming that the next token only depends on the preceding ones. However, this assumption ignores the potential benefits of using the full sequence information during training, and the possibility of having context from both sides during inference. In this paper, we propose a new pre-training paradigm with techniques that jointly improve the training data efficiency and the capabilities of the LMs in the infilling task. The first is a training objective that aligns the predictions of a left-to-right LM with those of a right-to-left LM, trained on the same data but in reverse order. The second is a bidirectional inference procedure that enables both LMs to meet in the middle. We show the effectiveness of our pre-training paradigm with extensive experiments on both programming and natural language models, outperforming strong baselines.

arxiv情報

著者 Anh Nguyen,Nikos Karampatziakis,Weizhu Chen
発行日 2023-03-13 17:17:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク