Preserving Multilingual Quality While Tuning Query Encoder on English Only

要約

高密度パッセージ検索システムは、情報検索の初期段階として機能し、下流のタスクに最も関連性の高いテキストパッセージを選択します。
この研究では、デュアル エンコーダのクエリ部分が英語のみのデータセットで調整された場合に、多言語検索の品質がどの程度低下する可能性があるかを調べることを目的とした実験を実施しました (ターゲット ドメインの言語をまたいだサンプルが不足していると仮定して)
またはタスク)。
具体的には、高品質の多言語埋め込みモデルから始めて、英語のみのチューニングによって多言語検索の元の品質が維持されるだけでなく、それが改善される可能性があることが観察されています。

要約(オリジナル)

A dense passage retrieval system can serve as the initial stages of information retrieval, selecting the most relevant text passages for downstream tasks. In this work we conducted experiments with the goal of finding how much the quality of a multilingual retrieval could be degraded if the query part of a dual encoder is tuned on an English-only dataset (assuming scarcity of cross-lingual samples for the targeted domain or task). Specifically, starting with a high quality multilingual embedding model, we observe that an English-only tuning may not only preserve the original quality of the multilingual retrieval, but even improve it.

arxiv情報

著者 Oleg Vasilyev,Randy Sawaya,John Bohannon
発行日 2024-08-09 06:02:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク