要約
Debertav3やModernbertなどの事前に保護された変圧器エンコーダーモデルは、効率とパフォーマンスの向上を目的とした建築の進歩を紹介します。
Modernbert Reportの著者は、いくつかのベンチマークでDeBertAV3のパフォーマンスを改善しましたが、開示されたトレーニングデータの欠如と共有データセットを使用した比較の欠如により、これらの利益がアーキテクチャの改善またはトレーニングデータの違いによるものであるかどうかを判断することが困難です。
この作業では、モデル設計の効果を分離するDEBERTAV3フランスのモデルであるCamemberTav2と同じデータセットでModernbertを前提とすることにより、制御された研究を実施します。
私たちの結果は、以前のモデル生成がサンプルの効率と全体的なベンチマークパフォーマンスにおいて優れていることを示しており、ModernBertの主な利点は、トレーニングと推論の速度を高速化することです。
ただし、新しい提案されたモデルは、BertやRobertaなどの以前のモデルと比較して、依然として意味のあるアーキテクチャの改善を提供します。
さらに、高品質のトレーニング前データは収束を加速しますが、最終パフォーマンスを大幅に改善しないことを観察し、潜在的なベンチマーク飽和を示唆しています。
これらの調査結果は、変圧器モデルを評価する際に、建築革新からデータを事前に移動することの重要性を示しています。
要約(オリジナル)
Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce architectural advancements aimed at improving efficiency and performance. Although the authors of ModernBERT report improved performance over DeBERTaV3 on several benchmarks, the lack of disclosed training data and the absence of comparisons using a shared dataset make it difficult to determine whether these gains are due to architectural improvements or differences in training data. In this work, we conduct a controlled study by pretraining ModernBERT on the same dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of model design. Our results show that the previous model generation remains superior in sample efficiency and overall benchmark performance, with ModernBERT’s primary advantage being faster training and inference speed. However, the new proposed model still provides meaningful architectural improvements compared to earlier models such as BERT and RoBERTa. Additionally, we observe that high-quality pre-training data accelerates convergence but does not significantly improve final performance, suggesting potential benchmark saturation. These findings show the importance of disentangling pretraining data from architectural innovations when evaluating transformer models.
arxiv情報
著者 | Wissam Antoun,Benoît Sagot,Djamé Seddah |
発行日 | 2025-04-11 17:29:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google