On the Pareto Front of Multilingual Neural Machine Translation

要約

タイトル:多言語ニューラル機械翻訳におけるパレートフロント

要約:
– 多言語ニューラル機械翻訳(MNMT)において、方向のサンプリング比率が与えられた場合の一般化性能の変化を研究する。
– 多様なモデルサイズ、方向、および全タスク数で200以上の多言語モデルをトレーニングすることにより、スカラ化がマルチタスクトレードオフフロントにつながることを発見する。これは、トレーニングコーパスにデータの偏りがある場合に従来のパレートフロントから逸脱する。
– 翻訳方向のパフォーマンスが、マルチタスク最適化目的の重みの増加とともに改善しない場合があるため、すべての方向の総合的なパフォーマンスを改善するのがより大きな課題となる。
– 観察結果に基づいて、MNMTにおけるユニークなパフォーマンストレードオフフロントを予測するためにダブルパワーローを提案する。これは、言語、データの適切さ、およびタスクの数に関係なく堅牢である。
– 最終的に、MNMTにおけるサンプル比率の選択をダブルパワーローに基づく最適化問題として定式化し、私たちの実験では、トレーニング予算の半分まで使用して、温度探索や勾配操作方法よりも優れたパフォーマンスを達成する。

要約(オリジナル)

In this work, we study how the generalization performance of a given direction changes with its sampling ratio in Multilingual Neural Machine Translation (MNMT). By training over 200 multilingual models with various model sizes, directions, and total numbers of tasks, we find that scalarization leads to a multitask trade-off front that deviates from the traditional Pareto front when there exists data imbalance in the training corpus. That is, the performance of certain translation directions does not improve with the increase of its weight in the multi-task optimization objective, which poses greater challenge to improve the overall performance of all directions. Based on our observations, we propose the Double Power Law to predict the unique performance trade-off front in MNMT, which is robust across various languages, data adequacy and number of tasks. Finally, we formulate sample ratio selection in MNMT as an optimization problem based on the Double Power Law, which achieves better performance than temperature searching and gradient manipulation methods using up to half of the total training budget in our experiments.

arxiv情報

著者 Liang Chen,Shuming Ma,Dongdong Zhang,Furu Wei,Baobao Chang
発行日 2023-04-06 16:49:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク