Lego-MT: Learning Detachable Models for Massively Multilingual Machine Translation

要約

多言語ニューラル機械翻訳 (MNMT) は、多くの言語方向に対応する統一モデルを構築することを目的としています。
MNMT の既存のモノリシック モデルは、言語間のパラメータ干渉と大規模モデルの非効率な推論という 2 つの課題に直面しています。
このペーパーでは、古典的なマルチウェイ構造を再検討し、プラグアンドプレイのトレーニングと推論をサポートする個別のブランチに各言語 (または言語のグループ) を割り当てることで、分離可能なモデルを開発します。
統一された空間ですべての言語の表現を学習するというニーズに応えるために、私たちは新しい効率的なトレーニング レシピを提案し、それに基づいて効果的な取り外し可能なモデル Lego-MT を構築します。
公平な比較を行うために、OPUS からデータを収集し、433 言語と 13 億の並列データをカバーする翻訳ベンチマークを構築しました。
実験によると、1.2B パラメーターを備えた Lego-MT は、平均 3.2 spBLEU のゲインをもたらします。
12B パラメータでは M2M-100 よりも優れたパフォーマンスを発揮します。
提案されたトレーニング レシピは、従来のマルチウェイ トレーニング方法と比較して 28.2$\times$ の高速化をもたらします。\footnote{ \url{https://github.com/CONE-MT/Lego-MT}.}

要約(オリジナル)

Multilingual neural machine translation (MNMT) aims to build a unified model for many language directions. Existing monolithic models for MNMT encounter two challenges: parameter interference among languages and inefficient inference for large models. In this paper, we revisit the classic multi-way structures and develop a detachable model by assigning each language (or group of languages) to an individual branch that supports plug-and-play training and inference. To address the needs of learning representations for all languages in a unified space, we propose a novel efficient training recipe, upon which we build an effective detachable model, Lego-MT. For a fair comparison, we collect data from OPUS and build a translation benchmark covering 433 languages and 1.3B parallel data. Experiments show that Lego-MT with 1.2B parameters brings an average gain of 3.2 spBLEU. It even outperforms M2M-100 with 12B parameters. The proposed training recipe brings a 28.2$\times$ speedup over the conventional multi-way training method.\footnote{ \url{https://github.com/CONE-MT/Lego-MT}.}

arxiv情報

著者 Fei Yuan,Yinquan Lu,WenHao Zhu,Lingpeng Kong,Lei Li,Yu Qiao,Jingjing Xu
発行日 2023-07-19 05:52:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク