CamemBERT 2.0: A Smarter French Language Model Aged to Perfection

要約

CamemBERT などのフランス語モデルは、自然言語処理 (NLP) タスクに業界全体で広く採用されており、CamemBERT のようなモデルは月間 400 万件以上のダウンロードを記録しています。
ただし、これらのモデルは、特に新しいトピックや用語に遭遇した場合に、トレーニング データが古いとパフォーマンスの低下につながる、時間的な概念のドリフトによる課題に直面しています。
この号では、現在の言語傾向を反映した更新されたモデルの必要性を強調しています。
このペーパーでは、これらの課題に対処するために設計された CamemBERT 基本モデルの 2 つの新しいバージョン、CamemBERTav2 および CamemBERTv2 を紹介します。
CamemBERTav2 は DeBERTaV3 アーキテクチャに基づいており、文脈の理解を向上させるために置換トークン検出 (RTD) 目標を利用します。一方、CamemBERTv2 はマスク言語モデリング (MLM) 目標を使用する RoBERTa に基づいて構築されています。
どちらのモデルも、より長いコンテキスト長と、フランス語のトークン化パフォーマンスを強化する更新されたトークナイザーを備えた、大幅に大規模で新しいデータセットでトレーニングされています。
私たちは、一般的なドメインの NLP タスクと、医療分野のタスクなどのドメイン固有のアプリケーションの両方でこれらのモデルのパフォーマンスを評価し、さまざまなユースケースにわたるその汎用性と有効性を実証しています。
私たちの結果は、これらの更新されたモデルが以前のモデルよりも大幅に優れており、最新の NLP システムにとって貴重なツールであることを示しています。
すべての新しいモデルと中間チェックポイントは、Huggingface で公開されています。

要約(オリジナル)

French language models, such as CamemBERT, have been widely adopted across industries for natural language processing (NLP) tasks, with models like CamemBERT seeing over 4 million downloads per month. However, these models face challenges due to temporal concept drift, where outdated training data leads to a decline in performance, especially when encountering new topics and terminology. This issue emphasizes the need for updated models that reflect current linguistic trends. In this paper, we introduce two new versions of the CamemBERT base model-CamemBERTav2 and CamemBERTv2-designed to address these challenges. CamemBERTav2 is based on the DeBERTaV3 architecture and makes use of the Replaced Token Detection (RTD) objective for better contextual understanding, while CamemBERTv2 is built on RoBERTa, which uses the Masked Language Modeling (MLM) objective. Both models are trained on a significantly larger and more recent dataset with longer context length and an updated tokenizer that enhances tokenization performance for French. We evaluate the performance of these models on both general-domain NLP tasks and domain-specific applications, such as medical field tasks, demonstrating their versatility and effectiveness across a range of use cases. Our results show that these updated models vastly outperform their predecessors, making them valuable tools for modern NLP systems. All our new models, as well as intermediate checkpoints, are made openly available on Huggingface.

arxiv情報

著者 Wissam Antoun,Francis Kulumba,Rian Touchent,Éric de la Clergerie,Benoît Sagot,Djamé Seddah
発行日 2024-11-13 18:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク