要約
【タイトル】
クロスリンガル情報検索に向けたシンプルで効果的なニューラルランキングと再ランキングのベースライン
【要約】
– マルチリンガル言語モデルの登場により、クロスリンガル情報検索(CLIR)に対する関心が再燃している。
– CLIRは、別の言語のクエリでドキュメントを検索するタスクである。
– 現在、多種多様な手法が存在し、再現性を確保できていない。
– この文脈において、本研究は2つの重要な貢献を提供する。
– まず、多段階アーキテクチャを使用した単言語検索に基づいた異なるアプローチを組織するための概念的フレームワークを提供する。
– 次に、AnseriniおよびPyserini IRツールキットでTREC 2022 NeuCLIR Trackのペルシャ語、ロシア語、および中国語のテストコレクション用に再現可能なベースラインを実装する。
– これらの貢献は将来の進展のための堅固な基盤を提供する。
要約(オリジナル)
The advent of multilingual language models has generated a resurgence of interest in cross-lingual information retrieval (CLIR), which is the task of searching documents in one language with queries from another. However, the rapid pace of progress has led to a confusing panoply of methods and reproducibility has lagged behind the state of the art. In this context, our work makes two important contributions: First, we provide a conceptual framework for organizing different approaches to cross-lingual retrieval using multi-stage architectures for mono-lingual retrieval as a scaffold. Second, we implement simple yet effective reproducible baselines in the Anserini and Pyserini IR toolkits for test collections from the TREC 2022 NeuCLIR Track, in Persian, Russian, and Chinese. Our efforts are built on a collaboration of the two teams that submitted the most effective runs to the TREC evaluation. These contributions provide a firm foundation for future advances.
arxiv情報
| 著者 | Jimmy Lin,David Alfonso-Hermelo,Vitor Jeronymo,Ehsan Kamalloo,Carlos Lassance,Rodrigo Nogueira,Odunayo Ogundepo,Mehdi Rezagholizadeh,Nandan Thakur,Jheng-Hong Yang,Xinyu Zhang |
| 発行日 | 2023-04-03 14:17:00+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI