Scaling Laws for Multilingual Neural Machine Translation

要約

この作業では、多言語ニューラル機械翻訳モデルのスケーリング プロパティに関する大規模な実証研究を提供します。
モデルサイズの増加がモデルのパフォーマンスにどのように影響するかを調べ、スケーリング動作に対するトレーニング混合組成の役割を調査します。
トレーニング混合物内の個々の言語ペアの重み付けを変更すると、スケーリングの法則の乗法係数にのみ影響することがわかりました。
特に、異なる混合率を使用してトレーニングされた多言語モデルはすべて、同じスケーリング指数を示すことがわかります。
新しい共同スケーリング法則の定式化を通じて、各言語ペアに割り当てられたパラメーターの有効数を計算し、モデルのスケーリング動作における言語の類似性の役割を調べます。
言語の類似性が何らかの影響を与えるという証拠はほとんど見つかりません。
対照的に、多言語性の方向性は重要な役割を果たしており、複数の言語から英語に翻訳されたモデルは、逆の対応物よりもタスクごとの有効なパラメーターの数が多くなっています。
最後に、観察結果を活用して、あらゆる規模の言語の重み付けでトレーニングされた多言語モデルのパフォーマンスを予測し、大規模な多言語モデルで言語のバランスをとるために必要な労力を大幅に削減します。
私たちの調査結果は、ドメイン内とドメイン外の両方のテスト セットと、ChrF や BLEURT などの複数の評価指標に適用されます。

要約(オリジナル)

In this work, we provide a large-scale empirical study of the scaling properties of multilingual neural machine translation models. We examine how increases in the model size affect the model performance and investigate the role of the training mixture composition on the scaling behavior. We find that changing the weightings of the individual language pairs in the training mixture only affect the multiplicative factor of the scaling law. In particular, we observe that multilingual models trained using different mixing rates all exhibit the same scaling exponent. Through a novel joint scaling law formulation, we compute the effective number of parameters allocated to each language pair and examine the role of language similarity in the scaling behavior of our models. We find little evidence that language similarity has any impact. In contrast, the direction of the multilinguality plays a significant role, with models translating from multiple languages into English having a larger number of effective parameters per task than their reversed counterparts. Finally, we leverage our observations to predict the performance of multilingual models trained with any language weighting at any scale, significantly reducing efforts required for language balancing in large multilingual models. Our findings apply to both in-domain and out-of-domain test sets and to multiple evaluation metrics, such as ChrF and BLEURT.

arxiv情報

著者 Patrick Fernandes,Behrooz Ghorbani,Xavier Garcia,Markus Freitag,Orhan Firat
発行日 2023-02-19 18:43:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク