Multilingual Representation Distillation with Contrastive Learning

要約

【タイトル】対比学習を用いた多言語表現の蒸留

【要約】大規模モデルからの多言語文章表現は、2つ以上の言語から意味情報をエンコードし、異なるクロス言語情報検索やマッチングタスクに使用することができます。この論文では、対比学習を多言語表現の蒸留に統合し、品質評価のためにパラレルな文を使用します(つまり、互いに翻訳として使用できる意味的に類似した文を見つけます)。多言語の類似度検索やコーパスフィルタリングタスクで、私たちはこのアプローチを検証しました。異なる低リソース言語にわたる実験により、私たちの手法は、LASER、LASER3、およびLaBSEなどの以前の文エンコーダーを大幅に上回ることが示されました。

【要点】

– 大規模モデルからの多言語文章表現は、異なるクロス言語情報検索やマッチングタスクに使用可能
– この論文では対比学習を用いた多言語表現の蒸留が行われる
– 品質評価のためにパラレルな文を使用し、意味的に類似した文を見つける
– 多言語の類似度検索やコーパスフィルタリングタスクで、このアプローチが検証される
– 実験により、異なる低リソース言語において、この手法は以前の文エンコーダーを大幅に上回ることが示される

要約(オリジナル)

Multilingual sentence representations from large models encode semantic information from two or more languages and can be used for different cross-lingual information retrieval and matching tasks. In this paper, we integrate contrastive learning into multilingual representation distillation and use it for quality estimation of parallel sentences (i.e., find semantically similar sentences that can be used as translations of each other). We validate our approach with multilingual similarity search and corpus filtering tasks. Experiments across different low-resource languages show that our method greatly outperforms previous sentence encoders such as LASER, LASER3, and LaBSE.

arxiv情報

著者 Weiting Tan,Kevin Heffernan,Holger Schwenk,Philipp Koehn
発行日 2023-04-30 20:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク