要約
元々は一方向の生成モデリング用に設計されましたが、デコーダ専用の大規模言語モデル (LLM) は双方向モデリングに適応されることが増えています。
ただし、一方向モデルと双方向モデルは通常、異なる目的 (それぞれ生成学習と表現学習) で個別にトレーニングされます。
この分離により、より汎用性の高い言語モデルを開発し、これらの目的を相互に補完する機会が見落とされます。
この研究では、知識とテキスト生成機能を維持しながら、堅牢な表現を生成し、欠落しているテキスト スパンを埋める能力を強化する、デコーダ専用 LLM の適応である MAGNET を紹介します。
MAGNET は 3 つの自己教師付きトレーニング目標を採用し、双方向の注意と因果的注意を組み合わせた注意メカニズムを導入し、すべての目標にわたって統一されたトレーニングを可能にします。
私たちの結果は、MAGNET を適用した LLM が、(1) トークンレベルおよび文レベルの表現学習タスクにおいて強力なテキストエンコーダを上回っていること、(2) 将来のコンテキストを活用することでコンテキストに適切なテキスト埋め込みを生成していること、(3) オープンエンドの能力を保持していることを示しています。
反復問題を示さずにテキストを生成し、(4) 事前トレーニング中に LLM によって得られた知識を保存します。
要約(オリジナル)
While originally designed for unidirectional generative modeling, decoder-only large language models (LLMs) are increasingly being adapted for bidirectional modeling. However, unidirectional and bidirectional models are typically trained separately with distinct objectives (generation and representation learning, respectively). This separation overlooks the opportunity for developing a more versatile language model and for these objectives to complement each other. In this work, we introduce MAGNET, an adaptation of decoder-only LLMs that enhances their ability to generate robust representations and infill missing text spans, while preserving their knowledge and text generation capabilities. MAGNET employs three self-supervised training objectives and introduces an attention mechanism that combines bidirectional and causal attention, enabling unified training across all objectives. Our results demonstrate that LLMs adapted with MAGNET (1) surpass strong text encoders on token-level and sentence-level representation learning tasks, (2) generate contextually appropriate text infills by leveraging future context, (3) retain the ability for open-ended text generation without exhibiting repetition problem, and (4) preserve the knowledge gained by the LLM during pretraining.
arxiv情報
著者 | Savya Khosla,Kushal Kafle,Simon Jenni,Handong Zhao,John Collomosse,Jing Shi |
発行日 | 2025-01-15 08:24:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google