On the Pareto Front of Multilingual Neural Machine Translation

要約

この研究では、多言語ニューラル機械翻訳 (MNMT) において、特定の方向のパフォーマンスがサンプリング率によってどのように変化するかを研究します。
さまざまなモデル サイズ、データ サイズ、言語方向で 200 を超える多言語モデルをトレーニングしたところ、マルチタスク最適化目標における重みが増加しても、特定の翻訳方向のパフォーマンスが必ずしも向上するとは限らないことがわかりました。
したがって、スカラー化方法は、トレーニング コーパスにデータの不均衡が存在する場合、従来のパレート フロントから逸脱するマルチタスク トレードオフ フロントをもたらし、全方向の全体的なパフォーマンスを向上させる上で大きな課題となります。
私たちの観察に基づいて、さまざまな言語、データの適切性、およびタスクの数にわたって堅牢な MNMT の固有のパフォーマンス トレードオフ フロントを予測するための 2 乗則を提案します。
最後に、MNMT のサンプル比選択問題を 2 倍べき乗則に基づく最適化問題として定式化します。
私たちの実験では、総トレーニング予算のわずか 1/5 ~ 1/2 で、温度検索や勾配操作方法よりも優れたパフォーマンスを達成しました。
複製用にコードを https://github.com/pkunlp-icler/ParetoMNMT でリリースします。

要約(オリジナル)

In this work, we study how the performance of a given direction changes with its sampling ratio in Multilingual Neural Machine Translation (MNMT). By training over 200 multilingual models with various model sizes, data sizes, and language directions, we find it interesting that the performance of certain translation direction does not always improve with the increase of its weight in the multi-task optimization objective. Accordingly, scalarization method leads to a multitask trade-off front that deviates from the traditional Pareto front when there exists data imbalance in the training corpus, which poses a great challenge to improve the overall performance of all directions. Based on our observations, we propose the Double Power Law to predict the unique performance trade-off front in MNMT, which is robust across various languages, data adequacy, and the number of tasks. Finally, we formulate the sample ratio selection problem in MNMT as an optimization problem based on the Double Power Law. In our experiments, it achieves better performance than temperature searching and gradient manipulation methods with only 1/5 to 1/2 of the total training budget. We release the code at https://github.com/pkunlp-icler/ParetoMNMT for reproduction.

arxiv情報

著者 Liang Chen,Shuming Ma,Dongdong Zhang,Furu Wei,Baobao Chang
発行日 2023-10-31 15:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク