mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval

要約

検索システムは一般に、短くて不足しているWebスタイルのクエリに焦点を当てています。
ただし、言語モデルの進歩により、多様な意図を持つより複雑なクエリを理解できる回復モデルの初期の上昇が促進されました。
しかし、これらの努力は英語のみに焦点を当てています。
したがって、それらが言語を越えてどのように機能するかはまだ理解していません。
検索モデルの指導中の能力を測定するための多言語ベンチマークであるMfollowirを紹介します。
Mfollowirは、3つの多様な言語(ロシア語、中国語、ペルシャ語)にまたがるTrec neuclirの物語(または指示)に基づいて構築され、検索モデルにクエリと命令の両方を提供します。
私たちは物語に小さな変更を加え、検索モデルがこれらの微妙な変化にどの程度うまく続くことができるかを分離します。
多言語(XX-XX)と横断的(EN-XX)パフォーマンスの両方の結果を提示します。
指示を使用してトレーニングした英語ベースのレトリバーでは、多言語の設定で顕著なパフォーマンスの低下を見つけ、命令ベースの多言語レトリバーのデータを開発するためにより多くの作業が必要であることを示しています。

要約(オリジナル)

Retrieval systems generally focus on web-style queries that are short and underspecified. However, advances in language models have facilitated the nascent rise of retrieval models that can understand more complex queries with diverse intents. However, these efforts have focused exclusively on English; therefore, we do not yet understand how they work across languages. We introduce mFollowIR, a multilingual benchmark for measuring instruction-following ability in retrieval models. mFollowIR builds upon the TREC NeuCLIR narratives (or instructions) that span three diverse languages (Russian, Chinese, Persian) giving both query and instruction to the retrieval models. We make small changes to the narratives and isolate how well retrieval models can follow these nuanced changes. We present results for both multilingual (XX-XX) and cross-lingual (En-XX) performance. We see strong cross-lingual performance with English-based retrievers that trained using instructions, but find a notable drop in performance in the multilingual setting, indicating that more work is needed in developing data for instruction-based multilingual retrievers.

arxiv情報

著者 Orion Weller,Benjamin Chang,Eugene Yang,Mahsa Yarmohammadi,Sam Barham,Sean MacAvaney,Arman Cohan,Luca Soldaini,Benjamin Van Durme,Dawn Lawrie
発行日 2025-01-31 16:24:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク