Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval

要約

高密度検索モデルは主に英語について研究されており、人間によるラベル付きトレーニングペアが利用できるため、モデルは大きな成功を収めています。
ただし、トレーニングデータが複数の言語にわたって不均一であるか、ほとんど利用できないため、これまでのところ多言語検索の成功は限られています。
合成トレーニングデータの生成は有望ですが (InPars や Promptagator など)、英語についてのみ調査されています。
したがって、言語をまたがる検索タスクと単言語検索タスクの両方にわたるモデルの機能を研究するために、人間の監督を必要とせずに多言語の高密度検索モデルをトレーニングするための 33 言語 (リソースの高いものから非常に少ないものまで) を含む合成検索トレーニングデータセットである SWIM-IR を開発しました。
SWIM-IR を構築するために、クエリ生成ステップの前に大規模言語モデル (LLM) がテキストの概要を生成する SAP (要約してから質問するプロンプト) を提案します。
SAP は、LLM がターゲット言語で有益なクエリを生成するのを支援します。
SWIM-IR を使用して、多言語の高密度検索モデルの合成微調整を検討し、XOR-Retrieve (クロスリンガル)、XTREME-UP (クロスリンガル)、および MIRACL (モノリンガル) の 3 つの検索ベンチマークで堅牢に評価します。
SWIM-X と呼ばれる私たちのモデルは、人間が監督する高密度検索モデル (mContriever など) と競合しており、SWIM-IR が高価な人間がラベル付けした検索トレーニングデータを安価に置き換えることができることがわかりました。

要約(オリジナル)

Dense retrieval models have predominantly been studied for English, where models have shown great success, due to the availability of human-labeled training pairs. However, there has been limited success for multilingual retrieval so far, as training data is uneven or scarcely available across multiple languages. Synthetic training data generation is promising (e.g., InPars or Promptagator), but has been investigated only for English. Therefore, to study model capabilities across both cross-lingual and monolingual retrieval tasks, we develop SWIM-IR, a synthetic retrieval training dataset containing 33 (high to very-low resource) languages for training multilingual dense retrieval models without requiring any human supervision. To construct SWIM-IR, we propose SAP (summarize-then-ask prompting), where the large language model (LLM) generates a textual summary prior to the query generation step. SAP assists the LLM in generating informative queries in the target language. Using SWIM-IR, we explore synthetic fine-tuning of multilingual dense retrieval models and evaluate them robustly on three retrieval benchmarks: XOR-Retrieve (cross-lingual), XTREME-UP (cross-lingual) and MIRACL (monolingual). Our models, called SWIM-X, are competitive with human-supervised dense retrieval models, e.g., mContriever, finding that SWIM-IR can cheaply substitute for expensive human-labeled retrieval training data.

arxiv情報

著者	Nandan Thakur,Jianmo Ni,Gustavo Hernández Ábrego,John Wieting,Jimmy Lin,Daniel Cer
発行日	2023-11-10 00:17:10+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー