It’s All in The [MASK]: Simple Instruction-Tuning Enables BERT-like Masked Language Models As Generative Classifiers

要約

BertやModernbertなどのエンコーダーのみのモデルは、実際のNLPアプリケーションで遍在していますが、タスク固有の分類ヘッドへの従来の依存は、デコーダーベースの大手言語モデル(LLMS)と比較して適用性を制限できます。
この作業では、生成分類のためにマスクされた言語モデリング(MLM)ヘッドを活用する0.4BパラメーターエンコーダーモデルであるModernBert-Large-Instructを紹介します。
私たちのアプローチでは、意図的にシンプルなトレーニングループと推論メカニズムを採用しています。これらのメカニズムは、重度の前処理、重度の設計プロンプト、またはアーキテクチャの変更を必要としません。
ModernBert-Large-Instructは、分類と知識ベースのタスクの両方で強力なゼロショットパフォーマンスを示し、MMLUで同様にサイズのLLMを上回り、Llama3-1BのMMLUパフォーマンスの93%を達成し、パラメーターを60%少なくします。
また、微調整された場合、MLMヘッドを使用した生成アプローチは、多様なNLUタスクにわたって従来の分類ヘッドメソッドを上回っていることを実証します。
ボリューム、より少ないダイバーデータは、パフォーマンスがかなり弱くなります。
予備的ではありますが、これらの結果は、下流タスクのために、従来のタスク固有のヘッドの上に元の生成マスク言語モデリングヘッドを使用する可能性を示しています。
私たちの仕事は、この分野へのさらなる調査が保証されており、将来の改善のために多くの道を強調していることを示唆しています。

要約(オリジナル)

While encoder-only models such as BERT and ModernBERT are ubiquitous in real-world NLP applications, their conventional reliance on task-specific classification heads can limit their applicability compared to decoder-based large language models (LLMs). In this work, we introduce ModernBERT-Large-Instruct, a 0.4B-parameter encoder model that leverages its masked language modelling (MLM) head for generative classification. Our approach employs an intentionally simple training loop and inference mechanism that requires no heavy pre-processing, heavily engineered prompting, or architectural modifications. ModernBERT-Large-Instruct exhibits strong zero-shot performance on both classification and knowledge-based tasks, outperforming similarly sized LLMs on MMLU and achieving 93% of Llama3-1B’s MMLU performance with 60% less parameters. We also demonstrate that, when fine-tuned, the generative approach using the MLM head matches or even surpasses traditional classification-head methods across diverse NLU tasks.This capability emerges specifically in models trained on contemporary, diverse data mixes, with models trained on lower volume, less-diverse data yielding considerably weaker performance. Although preliminary, these results demonstrate the potential of using the original generative masked language modelling head over traditional task-specific heads for downstream tasks. Our work suggests that further exploration into this area is warranted, highlighting many avenues for future improvements.

arxiv情報

著者 Benjamin Clavié,Nathan Cooper,Benjamin Warner
発行日 2025-02-10 14:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク