Headless Language Models: Learning without Predicting with Contrastive Weight Tying

要約

言語モデルの自己教師あり事前トレーニングは通常、広範なトークン語彙にわたる確率分布を予測することで構成されます。
この研究では、確率予測から離れ、代わりに Constrative Weight Tying (CWT) を介して対照的な方法で入力エンベディングを再構築することに焦点を当てる革新的な方法を提案します。
このアプローチを適用して、単言語コンテキストと多言語コンテキストの両方でヘッドレス言語モデルを事前トレーニングします。
私たちの方法は実際的な利点を提供し、トレーニングの計算要件を最大 20 分の 1 に大幅に削減すると同時に、ダウンストリームのパフォーマンスとデータ効率を向上させます。
同様のコンピューティング バジェット内で従来の LM と比較して、GLUE スコアが +1.6 大幅に増加し、LAMBADA 精度が +2.7 向上していることがわかります。

要約(オリジナル)

Self-supervised pre-training of language models usually consists in predicting probability distributions over extensive token vocabularies. In this study, we propose an innovative method that shifts away from probability prediction and instead focuses on reconstructing input embeddings in a contrastive fashion via Constrastive Weight Tying (CWT). We apply this approach to pretrain Headless Language Models in both monolingual and multilingual contexts. Our method offers practical advantages, substantially reducing training computational requirements by up to 20 times, while simultaneously enhancing downstream performance and data efficiency. We observe a significant +1.6 GLUE score increase and a notable +2.7 LAMBADA accuracy improvement compared to classical LMs within similar compute budgets.

arxiv情報

著者 Nathan Godey,Éric de la Clergerie,Benoît Sagot
発行日 2023-09-15 12:20:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク