Understanding and Analyzing Model Robustness and Knowledge-Transfer in Multilingual Neural Machine Translation using TX-Ray

要約

ニューラル ネットワークは、従来のフレーズベースのアプローチと比較して、ニューラル機械翻訳 (NMT) において大幅な進歩を示しています。
ただし、リソースが非常に少ない環境での多言語ニューラル機械翻訳 (MNMT) はまだ研究されていません。
この研究では、言語を越えた知識伝達がそのようなシナリオでどのように MNMT を強化できるかを調査します。
ヘルシンキ NLP の Tatoeba 翻訳チャレンジ データセットを使用して、英語-ドイツ語、英語-フランス語、英語-スペイン語の翻訳を実行し、最小限の並列データを活用して言語間マッピングを確立します。
特定の言語ペアに対する広範な事前トレーニングに依存する従来の方法とは異なり、英語をすべてのタスクのソース言語として設定し、英語-英語翻訳でモデルを事前トレーニングします。
このモデルは、共同マルチタスクおよび逐次転移学習戦略を使用して、ターゲット言語のペアに合わせて微調整されます。
私たちの研究は 3 つの重要な質問に取り組んでいます: (1) 言語を越えた知識の伝達により、リソースが非常に少ないシナリオで MNMT をどのように改善できるでしょうか?
(2) ニューロンの知識の枝刈りは、モデルの一般化、ロバスト性、壊滅的な忘却にどのように影響しますか?
(3) TX-Ray は、トレーニング済みモデルでの知識伝達をどのように解釈して定量化できますか?
BLEU-4 スコアを使用した評価では、逐次転移学習が 40k 並列文コーパスのベースラインを上回るパフォーマンスを示し、その有効性を示しています。
ただし、ニューロンの知識を枝刈りするとパフォーマンスが低下し、壊滅的な忘却が増加し、堅牢性や汎化性は向上しません。
私たちの調査結果は、リソースが非常に少ない環境での MNMT における知識の伝達と枝刈りの可能性と限界についての貴重な洞察を提供します。

要約(オリジナル)

Neural networks have demonstrated significant advancements in Neural Machine Translation (NMT) compared to conventional phrase-based approaches. However, Multilingual Neural Machine Translation (MNMT) in extremely low-resource settings remains underexplored. This research investigates how knowledge transfer across languages can enhance MNMT in such scenarios. Using the Tatoeba translation challenge dataset from Helsinki NLP, we perform English-German, English-French, and English-Spanish translations, leveraging minimal parallel data to establish cross-lingual mappings. Unlike conventional methods relying on extensive pre-training for specific language pairs, we pre-train our model on English-English translations, setting English as the source language for all tasks. The model is fine-tuned on target language pairs using joint multi-task and sequential transfer learning strategies. Our work addresses three key questions: (1) How can knowledge transfer across languages improve MNMT in extremely low-resource scenarios? (2) How does pruning neuron knowledge affect model generalization, robustness, and catastrophic forgetting? (3) How can TX-Ray interpret and quantify knowledge transfer in trained models? Evaluation using BLEU-4 scores demonstrates that sequential transfer learning outperforms baselines on a 40k parallel sentence corpus, showcasing its efficacy. However, pruning neuron knowledge degrades performance, increases catastrophic forgetting, and fails to improve robustness or generalization. Our findings provide valuable insights into the potential and limitations of knowledge transfer and pruning in MNMT for extremely low-resource settings.

arxiv情報

著者 Vageesh Saxena,Sharid Loáiciga,Nils Rethmeier
発行日 2024-12-18 14:21:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク