AntLM: Bridging Causal and Masked Language Models

要約

因果言語モデリング (CLM) とマスク言語モデリング (MLM) は、Transformer ネットワーク、特にデコーダーのみのアーキテクチャとエンコーダーのみのアーキテクチャに基づく 2 つの主流の学習パラダイムです。
下流タスクにおける各パラダイムの長所は、長所と短所が混在していることを示しています。
過去の BabyLM Challenge 2023 では、MLM パラダイムが最高の平均パフォーマンスを達成しましたが、CLM パラダイムは大幅に速い収束速度を示しました。
BabyLM Challenge 2024 では、$\textbf{AntLM}$ という名前の新しい言語モデリング パラダイムを提案します。これは、CLM と MLM の両方を統合して、これら 2 つの古典的なパラダイムの利点を活用します。
私たちは厳密に小さいトラックを選択し、CLM を表す BabyLlama と MLM を表す LTG-BERT の 2 つの基礎モデルで実験を実施しました。
特定の基礎モデルのトレーニング プロセス中に、CLM または MLM トレーニング目標と因果的または双方向の注意マスクの適用を交互に行います。
実験結果は、2 つの事前トレーニング目標を組み合わせることでそれぞれの長所を活用し、全体的なトレーニングのパフォーマンスを向上させることを示しています。
同じエポックの下で、$AntLM_{BabyLlama}$ はマクロ平均を 1% 改善し、$AntLM_{LTG-BERT}$ はベースラインに対して 2.2% の増加を達成しました。

要約(オリジナル)

Causal Language Modeling (CLM) and Masked Language Modeling (MLM) are two mainstream learning paradigms based on Transformer networks, specifically the Decoder-only and Encoder-only architectures. The strengths of each paradigm in downstream tasks have shown a mix of advantages and disadvantages. In the past BabyLM Challenge 2023, although the MLM paradigm achieved the best average performance, the CLM paradigm demonstrated significantly faster convergence rates. For the BabyLM Challenge 2024, we propose a novel language modeling paradigm named $\textbf{AntLM}$, which integrates both CLM and MLM to leverage the advantages of these two classic paradigms. We chose the strict-small track and conducted experiments on two foundation models: BabyLlama, representing CLM, and LTG-BERT, representing MLM. During the training process for specific foundation models, we alternate between applying CLM or MLM training objectives and causal or bidirectional attention masks. Experimental results show that combining the two pretraining objectives leverages their strengths, enhancing overall training performance. Under the same epochs, $AntLM_{BabyLlama}$ improves Macro-average by 1%, and $AntLM_{LTG-BERT}$ achieves a 2.2% increase over the baselines.

arxiv情報

著者 Xinru Yu,Bin Guo,Shiwei Luo,Jie Wang,Tao Ji,Yuanbin Wu
発行日 2024-12-04 12:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク