要約
このホワイトペーパーでは、低リソース言語向けの多言語エンコーダーのみの言語モデルのために、2段階の知識蒸留、構造化された剪定、切り捨て、および語彙トリミングを組み合わせています。
私たちの斬新なアプローチは、既存の技術を体系的に組み合わせて、それらを極端に減らし、層の深さ、フィードフォワードの隠されたサイズ、および中間層の埋め込みサイズを縮小し、重要な言語固有の知識を保持しながら、かなり小さな単一言語モデルを作成します。
3つの低リソース言語にわたって、センチメント分析、トピック分類、エンティティ認識、およびスピーチの一部のタグ付けなど、4つの下流タスクで2〜10%のわずかなパフォーマンス低下のみで、最大92%の圧縮率を達成します。
特に、パフォーマンスの劣化は、教師モデルの言語固有のデータの量と相関しており、データセットが大きくなるとパフォーマンスの損失が少なくなります。
さらに、これらの手法を使用して多言語モデル圧縮のベストプラクティスを特定するために、広範なアブレーション研究を実施します。
要約(オリジナル)
In this paper, we combine two-step knowledge distillation, structured pruning, truncation, and vocabulary trimming for extremely compressing multilingual encoder-only language models for low-resource languages. Our novel approach systematically combines existing techniques and takes them to the extreme, reducing layer depth, feed-forward hidden size, and intermediate layer embedding size to create significantly smaller monolingual models while retaining essential language-specific knowledge. We achieve compression rates of up to 92% with only a marginal performance drop of 2-10% in four downstream tasks, including sentiment analysis, topic classification, named entity recognition, and part-of-speech tagging, across three low-resource languages. Notably, the performance degradation correlates with the amount of language-specific data in the teacher model, with larger datasets resulting in smaller performance losses. Additionally, we conduct extensive ablation studies to identify best practices for multilingual model compression using these techniques.
arxiv情報
著者 | Daniil Gurgurov,Michal Gregor,Josef van Genabith,Simon Ostermann |
発行日 | 2025-05-22 17:35:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google