Can Machine Translation Bridge Multilingual Pretraining and Cross-lingual Transfer Learning?

要約

多言語の事前トレーニングと微調整は、さまざまな自然言語処理タスクで目覚ましい成功を収めています。
ある言語から別の言語に表現を移行することは、言語を越えた学習にとって特に重要です。
機械翻訳の目標には、異なる言語からの意味的に同等の文の明示的な調整が含まれるため、そのような機能の育成に非常に適していることが期待できます。
この論文では、言語表現の学習を強化し、多言語の事前トレーニングと言語を越えたアプリケーションの橋渡しをするための継続的なトレーニング目標として機械翻訳を採用することの潜在的な利点を調査します。
私たちは、既存のモデルのパフォーマンスの定量的評価とその潜在的な表現の分析という 2 つのレンズを通してこの問題を研究します。
私たちの結果は、予想に反して、継続的なトレーニングによる機械翻訳は、複数の言語を越えた自然言語理解タスクにおける言語を越えた表現の学習を強化できないことを示しています。
我々は、言語を越えたシナリオにおける明示的な文レベルの調整は、言語を越えた転移の事前訓練に有害であり、これは将来の言語を越えた転移の研究に重要な意味を持つと結論付けた。
さらに、類似性の測定とパラメーターの調査を通じて、このポジティブな影響の欠如が出力の分離性によるものであるという証拠を提供します。出力の分離性は機械翻訳には役立ちますが、他の分野では有害であると私たちは主張しています。

要約(オリジナル)

Multilingual pretraining and fine-tuning have remarkably succeeded in various natural language processing tasks. Transferring representations from one language to another is especially crucial for cross-lingual learning. One can expect machine translation objectives to be well suited to fostering such capabilities, as they involve the explicit alignment of semantically equivalent sentences from different languages. This paper investigates the potential benefits of employing machine translation as a continued training objective to enhance language representation learning, bridging multilingual pretraining and cross-lingual applications. We study this question through two lenses: a quantitative evaluation of the performance of existing models and an analysis of their latent representations. Our results show that, contrary to expectations, machine translation as the continued training fails to enhance cross-lingual representation learning in multiple cross-lingual natural language understanding tasks. We conclude that explicit sentence-level alignment in the cross-lingual scenario is detrimental to cross-lingual transfer pretraining, which has important implications for future cross-lingual transfer studies. We furthermore provide evidence through similarity measures and investigation of parameters that this lack of positive influence is due to output separability — which we argue is of use for machine translation but detrimental elsewhere.

arxiv情報

著者 Shaoxiong Ji,Timothee Mickus,Vincent Segonne,Jörg Tiedemann
発行日 2024-03-25 13:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク