Semformer: Transformer Language Models with Semantic Planning

要約

次のトークンの予測は、現在のニューラル言語モデルの主要なコンポーネントとして機能します。
トレーニング フェーズでは、モデルは、先行するすべてのグラウンド トゥルース トークンに基づいてトークンを予測する教師強制を採用します。
ただし、このアプローチは、明らかにされたプレフィックスを利用して将来のトークンを誤って適合させるショートカットを作成し、次のトークンの予測子の精度を損なう可能性があることが判明しています。
この論文では、応答の意味論的計画を明示的にモデル化する Transformer 言語モデルをトレーニングする新しい方法である Semformer を紹介します。
具体的には、一連の計画トークンをプレフィックスに組み込み、計画トークン表現をガイドして、オートエンコーダーによって引き起こされる応答の潜在的な意味表現を予測します。
最小限の計画タスク (つまり、グラフの経路探索) では、私たちのモデルはほぼ完璧なパフォーマンスを示し、ショートカット学習を効果的に軽減します。これは、標準的なトレーニング方法やベースライン モデルでは達成できなかった偉業です。
さらに、1 億 2,500 万のパラメーターを使用して Semformer を最初から事前トレーニングし、複雑さの測定、コンテキスト内学習、要約タスクの微調整を通じてその有効性を実証しています。

要約(オリジナル)

Next-token prediction serves as the dominant component in current neural language models. During the training phase, the model employs teacher forcing, which predicts tokens based on all preceding ground truth tokens. However, this approach has been found to create shortcuts, utilizing the revealed prefix to spuriously fit future tokens, potentially compromising the accuracy of the next-token predictor. In this paper, we introduce Semformer, a novel method of training a Transformer language model that explicitly models the semantic planning of response. Specifically, we incorporate a sequence of planning tokens into the prefix, guiding the planning token representations to predict the latent semantic representations of the response, which are induced by an autoencoder. In a minimal planning task (i.e., graph path-finding), our model exhibits near-perfect performance and effectively mitigates shortcut learning, a feat that standard training methods and baseline models have been unable to accomplish. Furthermore, we pretrain Semformer from scratch with 125M parameters, demonstrating its efficacy through measures of perplexity, in-context learning, and fine-tuning on summarization tasks.

arxiv情報

著者 Yongjing Yin,Junran Ding,Kai Song,Yue Zhang
発行日 2024-09-17 12:54:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク