Memory-efficient NLLB-200: Language-specific Expert Pruning of a Massively Multilingual Machine Translation Model

要約

従来の二言語翻訳システムと比較して、大規模多言語機械翻訳は、単一のモデルで複数の言語に翻訳でき、リソースの少ない言語に対する知識伝達の恩恵を受けることができるため、魅力的です。
一方、大規模な多言語モデルは、サイズを大幅に拡張しない限り、多言語の呪いに悩まされ、トレーニングと推論のコストが増加します。
疎な専門家混合モデルは、比例した量のコンピューティングを必要とせずにモデルの能力を大幅に向上させる方法です。
最近発売されたNLLB-200もその一例です。
202 の言語をカバーしていますが、推論のためだけに少なくとも 4 つの 32GB GPU が必要です。
この研究では、翻訳品質の損失を無視して、最大 80% のエキスパートを削除できる枝刈り方法を提案します。これにより、単一の 32 GB GPU でモデルを実行することが可能になります。
さらなる分析により、私たちの枝刈りメトリクスにより、特定の言語ペアに対して言語固有の専門家を特定し、関連性のない専門家を枝刈りできることが示唆されています。

要約(オリジナル)

Compared to conventional bilingual translation systems, massively multilingual machine translation is appealing because a single model can translate into multiple languages and benefit from knowledge transfer for low resource languages. On the other hand, massively multilingual models suffer from the curse of multilinguality, unless scaling their size massively, which increases their training and inference costs. Sparse Mixture-of-Experts models are a way to drastically increase model capacity without the need for a proportional amount of computing. The recently released NLLB-200 is an example of such a model. It covers 202 languages but requires at least four 32GB GPUs just for inference. In this work, we propose a pruning method that allows the removal of up to 80\% of experts with a negligible loss in translation quality, which makes it feasible to run the model on a single 32GB GPU. Further analysis suggests that our pruning metrics allow to identify language-specific experts and prune non-relevant experts for a given language pair.

arxiv情報

著者 Yeskendir Koishekenov,Vassilina Nikoulina,Alexandre Berard
発行日 2023-07-06 07:01:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク