Language Agnostic Multilingual Information Retrieval with Contrastive Learning

要約

タイトル:コントラスティブ学習による言語非依存型マルチリンガル情報検索

要約:
– 註釈付きのトレーニングデータを多数の言語で取得するのは困難であるため、マルチリンガル情報検索は課題である。
– 本研究は、英語の情報検索トレーニングデータと英語と他の言語の並列コーパスしかない状況でも、マルチリンガル情報検索システムを効果的にトレーニングする方法を提供する。
– 本手法では、マルチリンガル言語モデルの言語間転送能力を向上させるために、並列および非並列のコーパスを活用する。
– 本手法では、意味を共有する並列文の表現を整合させるための意味コントラスティブ損失と、非並列コーパスからの言語固有情報を削除するための言語コントラスティブ損失を設計する。
– これらの損失で英語のIRデータをトレーニングし、英語以外のデータでゼロショット評価を行った結果、先行研究に比べて検索性能が大幅に向上し、計算コストも少ないことを実証する。
– また、本研究は、並列コーパスが一部の言語でしか利用できない場合や、低リソース言語の場合でも、少数の並列文で良好なパフォーマンスを発揮し、背骨や他のタスクに附加モジュールとして使用できることも示す。

要約(オリジナル)

Multilingual information retrieval (IR) is challenging since annotated training data is costly to obtain in many languages. We present an effective method to train multilingual IR systems when only English IR training data and some parallel corpora between English and other languages are available. We leverage parallel and non-parallel corpora to improve the pretrained multilingual language models’ cross-lingual transfer ability. We design a semantic contrastive loss to align representations of parallel sentences that share the same semantics in different languages, and a new language contrastive loss to leverage parallel sentence pairs to remove language-specific information in sentence representations from non-parallel corpora. When trained on English IR data with these losses and evaluated zero-shot on non-English data, our model demonstrates significant improvement to prior work on retrieval performance, while it requires much less computational effort. We also demonstrate the value of our model for a practical setting when a parallel corpus is only available for a few languages, but a lack of parallel corpora resources persists for many other low-resource languages. Our model can work well even with a small number of parallel sentences, and be used as an add-on module to any backbones and other tasks.

arxiv情報

著者 Xiyang Hu,Xinchi Chen,Peng Qi,Deguang Kong,Kunlun Liu,William Yang Wang,Zhiheng Huang
発行日 2023-05-09 03:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR パーマリンク