T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text Classification

要約

言語間テキスト分類では、高リソース言語でトレーニングされたテキスト分類器を利用して、微調整をまったく行わないか最小限の調整で他の言語のテキスト分類を実行します (言語間の転送はゼロまたは数回のみ)。
現在、クロスリンガル テキスト分類器は通常、対象となるさまざまな言語で事前トレーニングされた大規模な多言語言語モデル (LM) に基づいて構築されています。
ただし、これらのモデルのパフォーマンスは言語や分類タスクによって大きく異なり、言語モデリングと分類タスクの重ね合わせが常に効果的であるとは限らないことを示唆しています。
このため、このホワイト ペーパーでは、古典的な「翻訳とテスト」パイプラインを再検討して、翻訳段階と分類段階をきちんと分離することを提案します。
提案されたアプローチは、1) ターゲット言語から高リソース言語に翻訳するニューラル機械翻訳器と、2) 高リソース言語で訓練されたテキスト分類器を組み合わせますが、ニューラル機械翻訳器は、最終的な翻訳を可能にする「ソフト」翻訳を生成します。
パイプラインの微調整中のツーエンド逆伝播。
3 つの言語間テキスト分類データセット (XNLI、MLDoc、および MultiEURLEX) に対して広範な実験が実施され、その結果、提案されたアプローチが競合ベースラインと比較してパフォーマンスを大幅に向上させることが示されました。

要約(オリジナル)

Cross-lingual text classification leverages text classifiers trained in a high-resource language to perform text classification in other languages with no or minimal fine-tuning (zero/few-shots cross-lingual transfer). Nowadays, cross-lingual text classifiers are typically built on large-scale, multilingual language models (LMs) pretrained on a variety of languages of interest. However, the performance of these models vary significantly across languages and classification tasks, suggesting that the superposition of the language modelling and classification tasks is not always effective. For this reason, in this paper we propose revisiting the classic ‘translate-and-test’ pipeline to neatly separate the translation and classification stages. The proposed approach couples 1) a neural machine translator translating from the targeted language to a high-resource language, with 2) a text classifier trained in the high-resource language, but the neural machine translator generates ‘soft’ translations to permit end-to-end backpropagation during fine-tuning of the pipeline. Extensive experiments have been carried out over three cross-lingual text classification datasets (XNLI, MLDoc and MultiEURLEX), with the results showing that the proposed approach has significantly improved performance over a competitive baseline.

arxiv情報

著者 Inigo Jauregi Unanue,Gholamreza Haffari,Massimo Piccardi
発行日 2023-06-08 07:33:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク