Memory-efficient NLLB-200: Language-specific Expert Pruning of a Massively Multilingual Machine Translation Model

要約

最近リリースされた NLLB-200 は、202 言語をカバーする多言語ニューラル機械翻訳モデルのセットです。
最大のモデルは、専門家の混合アーキテクチャに基づいており、多くの言語ペアにわたって SoTA の結果を達成します。
これには 54.5B のパラメーターが含まれており、推論のためだけに少なくとも 4 つの 32GB GPU が必要です。
この研究では、さらなる微調整を行わずに、翻訳品質の損失を無視して、エキスパートの最大 80% を削除できる枝刈り方法を提案します。これにより、単一の 32GB GPU でモデルを実行することが可能になります。
さらなる分析により、プルーニング指標により言語固有の専門家を特定できることが示唆されています。

要約(オリジナル)

The recently released NLLB-200 is a set of multilingual Neural Machine Translation models that cover 202 languages. The largest model is based on a Mixture of Experts architecture and achieves SoTA results across many language pairs. It contains 54.5B parameters and requires at least four 32GB GPUs just for inference. In this work, we propose a pruning method that enables the removal of up to 80% of experts without further finetuning and with a negligible loss in translation quality, which makes it feasible to run the model on a single 32GB GPU. Further analysis suggests that our pruning metrics can identify language-specific experts.

arxiv情報

著者 Yeskendir Koishekenov,Alexandre Berard,Vassilina Nikoulina
発行日 2023-07-07 09:53:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク