Data-Efficient French Language Modeling with CamemBERTa

要約

近年のNLPの進歩により、様々なタスクにおける言語モデルの性能は著しく向上している。これらの進歩は、大量のデータと計算能力の利用が主な要因であるが、より優れた学習方法とアーキテクチャの開発からも恩恵を受けている。本稿では、DeBERTaV3 のアーキテクチャと学習目的を基にしたフランス語の DeBERTa モデルである CamemBERTa を紹介します。質問応答、品詞タグ付け、係り受け解析、名前付きエンティティ認識、FLUEベンチマークなど、様々なフランス語の下流タスクとデータセットで本モデルの性能を評価し、フランス語の最先端モノリンガルモデルであるCamemBERTと比較しました。その結果、同じ量の学習トークンが与えられた場合、我々のモデルはほとんどのタスクでMLMで訓練されたBERTベースのモデルを上回ることがわかった。さらに、CamemBERTと比較すると、入力トークン数の30%しか学習していないにもかかわらず、下流タスクで同等以上の性能を発揮することができました。実験結果に加え、CamemBERTaの重みとコード実装も公開し、原著論文以外で初めて公開されたDeBERTaV3モデル、および初めて公開されたDeBERTaV3訓練目的の実装となりました。https://gitlab.inria.fr/almanach/CamemBERTa

要約(オリジナル)

Recent advances in NLP have significantly improved the performance of language models on a variety of tasks. While these advances are largely driven by the availability of large amounts of data and computational power, they also benefit from the development of better training methods and architectures. In this paper, we introduce CamemBERTa, a French DeBERTa model that builds upon the DeBERTaV3 architecture and training objective. We evaluate our model’s performance on a variety of French downstream tasks and datasets, including question answering, part-of-speech tagging, dependency parsing, named entity recognition, and the FLUE benchmark, and compare against CamemBERT, the state-of-the-art monolingual model for French. Our results show that, given the same amount of training tokens, our model outperforms BERT-based models trained with MLM on most tasks. Furthermore, our new model reaches similar or superior performance on downstream tasks compared to CamemBERT, despite being trained on only 30% of its total number of input tokens. In addition to our experimental results, we also publicly release the weights and code implementation of CamemBERTa, making it the first publicly available DeBERTaV3 model outside of the original paper and the first openly available implementation of a DeBERTaV3 training objective. https://gitlab.inria.fr/almanach/CamemBERTa

arxiv情報

著者 Wissam Antoun,Benoît Sagot,Djamé Seddah
発行日 2023-06-02 12:45:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク