Think before you speak: Training Language Models With Pause Tokens

要約

K+1)^{th}$ 個目のトークンは、1つのトークンにつき1つのベクトル、1層につき$K$個の隠れベクトルを操作した結果である。その代わりに、$(K+1)^{th}$番目のトークンを出力する前に、モデルに例えば$K+10$個の隠れベクトルを操作させたらどうだろうか?学習可能な)$textit{pause}$トークンを持つ言語モデルの学習と推論を行うことで、このアイデアを運用する。そして、最後のポーズトークンが表示されるまで、モデルの出力の抽出を遅らせることで、モデルが答えにコミットする前に余分な計算を処理できるようにする。C4で因果プリトレーニングを行った1Bと130Mのパラメータのデコーダのみのモデル、及び推論、質問応答、一般的な理解、事実想起をカバーする下流タスクで$textit{pause-training}$を経験的に評価する。我々の主な発見は、推論時間の遅延は、モデルが事前訓練され、遅延で微調整された場合に利益を示すということである。特に、SQuADのQAタスクで$18%$のEMスコアの利得、CommonSenseQAで$8%$のEMスコアの利得、GSM8kの推論タスクで$1%$の精度の利得がある。我々の研究は、遅延次トークン予測を広く適用可能な新しいパラダイムにするための、概念的かつ実用的な将来の研究課題を提起している。

要約(オリジナル)

Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model’s outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18\%$ EM score on the QA task of SQuAD, $8\%$ on CommonSenseQA and $1\%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.

arxiv情報

著者 Sachin Goyal,Ziwei Ji,Ankit Singh Rawat,Aditya Krishna Menon,Sanjiv Kumar,Vaishnavh Nagarajan
発行日 2023-10-03 17:32:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク