Learning Multilingual Sentence Representations with Cross-lingual Consistency Regularization

要約

多言語文表現は、類似性に基づくバイテキスト マイニングの基礎であり、多言語ニューラル機械翻訳 (NMT) システムをより多くの言語に拡張するために重要です。
このペーパーでは、220 を超える言語をサポートする万能の多言語文表現モデルである MuSR を紹介します。
何十億もの英語中心の並列コーパスを活用して、Gao et al. が提案した言語間一貫性正則化手法である CrossConST を使用した多言語 NMT フレームワークを採用することで、補助的な Transformer デコーダと組み合わせた多言語 Transformer エンコーダをトレーニングします。
(2023年)。
多言語類似性検索とバイテキストマイニングタスクの実験結果は、私たちのアプローチの有効性を示しています。
具体的には、MuSR は 148 個の独立した多言語文エンコーダで構成される LASER3 (Heffernan et al., 2022) よりも優れたパフォーマンスを実現します。

要約(オリジナル)

Multilingual sentence representations are the foundation for similarity-based bitext mining, which is crucial for scaling multilingual neural machine translation (NMT) system to more languages. In this paper, we introduce MuSR: a one-for-all Multilingual Sentence Representation model that supports more than 220 languages. Leveraging billions of English-centric parallel corpora, we train a multilingual Transformer encoder, coupled with an auxiliary Transformer decoder, by adopting a multilingual NMT framework with CrossConST, a cross-lingual consistency regularization technique proposed in Gao et al. (2023). Experimental results on multilingual similarity search and bitext mining tasks show the effectiveness of our approach. Specifically, MuSR achieves superior performance over LASER3 (Heffernan et al., 2022) which consists of 148 independent multilingual sentence encoders.

arxiv情報

著者 Pengzhi Gao,Liwen Zhang,Zhongjun He,Hua Wu,Haifeng Wang
発行日 2023-06-12 07:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク