DEPT: Decoupled Embeddings for Pre-training Language Models

要約

言語モデルのプリトレーニングでは、幅広いデータ混合物を使用して、ドメインと言語間のパフォーマンスを向上させます。
ただし、このような不均一なテキストコーパスのトレーニングには、広範で高価な努力が必要です。
これらのデータソースは語彙、構文、およびセマンティックの側面では大幅に異なるため、負の干渉または「多言語性の呪い」を引き起こします。
これらの課題に対処するために、私たちはコミュニケーション効率の良い事前訓練フレームワークであるDeptを提案します。
私たちの方法は、変圧器の本体からの埋め込みを切り離し、同時に共有の語彙を必要とせずに複数のデータソースで後者をトレーニングします。
(1)重要なデータの不均一性の下で堅牢かつ効果的に訓練すること、(2)データソースの語彙が必要とするものにトークンの埋め込みパラメーターを最小限に抑え、通信頻度とパラメーターの削減の両方に直接比例して通信コストを削減します。
データソースごとの語彙。
私たちは、10億個のスケールモデルの最初の語彙に依存しない連合前訓練を介して部門の可能性を示し、コミュニケーションコストを桁違いに削減し、記憶を4-5倍に埋め込みます。

要約(オリジナル)

Language Model pre-training uses broad data mixtures to enhance performance across domains and languages. However, training on such heterogeneous text corpora requires extensive and expensive efforts. Since these data sources vary significantly in lexical, syntactic, and semantic aspects, they cause negative interference or the “curse of multilinguality”. To address these challenges we propose a communication-efficient pre-training framework, DEPT. Our method decouples embeddings from the transformer body while simultaneously training the latter on multiple data sources without requiring a shared vocabulary. DEPT can: (1) train robustly and effectively under significant data heterogeneity, (2) minimize token embedding parameters to only what the data source vocabulary requires, while cutting communication costs in direct proportion to both the communication frequency and the reduction in parameters, (3) enhance transformer body plasticity and generalization, improving both average perplexity (up to 20%) and downstream task performance, and (4) enable training with custom optimized vocabularies per data source. We demonstrate DEPT’s potential via the first vocabulary-agnostic federated pre-training of billion-scale models, reducing communication costs by orders of magnitude and embedding memory by 4-5x.

arxiv情報

著者 Alex Iacob,Lorenzo Sani,Meghdad Kurmanji,William F. Shen,Xinchi Qiu,Dongqi Cai,Yan Gao,Nicholas D. Lane
発行日 2025-04-02 17:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク