On the Pareto Front of Multilingual Neural Machine Translation

要約

タイトル:多言語ニューラルマシン翻訳のパレートフロントについて
要約:
– 200以上の多言語モデルをトレーニングして、サンプリング率が与えられた方向の一般化性能がどのように変化するかを研究しました
– 泥縄的プロットの代わりにスカラリゼーションを使用すると、トレーニングコーパス内でデータの不均衡が存在する場合、マルチタスクトレードオフフロントが従来のパレートフロントから外れることがわかりました
– つまり、一定の翻訳方向のパフォーマンスは、マルチタスク最適化目的におけるその重量の増加とともに改善されないため、すべての方向の全体的なパフォーマンスを改善するのに大きな課題があります
– 観察に基づいて、MNMTにおけるユニークなパフォーマンストレードオフフロントを予測するために、ダブルパワーローを提案します。これは、さまざまな言語、データ適切性、タスク数に対して堅牢であります。
– 最後に、MNMTにおけるサンプル比率選択問題をダブルパワーローに基づく最適化問題として定式化しました。これは、私たちの実験でトレーニング予算の半分まで使用して、温度探索や勾配操作の方法よりも優れたパフォーマンスを発揮しました。

要約(オリジナル)

In this work, we study how the generalization performance of a given direction changes with its sampling ratio in Multilingual Neural Machine Translation (MNMT). By training over 200 multilingual models with various model sizes, directions, and total numbers of tasks, we find that scalarization leads to a multitask trade-off front that deviates from the traditional Pareto front when there exists data imbalance in the training corpus. That is, the performance of certain translation directions does not improve with the increase of its weight in the multi-task optimization objective, which poses a great challenge to improve the overall performance of all directions. Based on our observations, we propose the Double Power Law to predict the unique performance trade-off front in MNMT, which is robust across various languages, data adequacy, and the number of tasks. Finally, we formulate the sample ratio selection problem in MNMT as an optimization problem based on the Double Power Law, which achieves better performance than temperature searching and gradient manipulation methods using up to half of the total training budget in our experiments.

arxiv情報

著者 Liang Chen,Shuming Ma,Dongdong Zhang,Furu Wei,Baobao Chang
発行日 2023-04-07 02:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク