要約
ロシア語の情報検索(IR)モデルのゼロショット評価のために設計された包括的なベンチマークであるRusbeirを紹介します。
さまざまなドメインからの17のデータセットで構成され、適応、翻訳、新しく作成されたデータセットを統合し、語彙モデルとニューラルモデルの体系的な比較を可能にします。
私たちの研究は、形態学的に豊富な言語における語彙モデルに対する前処理の重要性を強調し、BM25をフルドキュメント検索の強力なベースラインとして確認しています。
ME5-LargeやBGE-M3などのニューラルモデルは、ほとんどのデータセットで優れたパフォーマンスを示しますが、入力サイズの制約により長期の検索で課題に直面しています。
Rusbeirは、ロシア語の情報検索の研究を促進する統一されたオープンソースのフレームワークを提供します。
要約(オリジナル)
We introduce RusBEIR, a comprehensive benchmark designed for zero-shot evaluation of information retrieval (IR) models in the Russian language. Comprising 17 datasets from various domains, it integrates adapted, translated, and newly created datasets, enabling systematic comparison of lexical and neural models. Our study highlights the importance of preprocessing for lexical models in morphologically rich languages and confirms BM25 as a strong baseline for full-document retrieval. Neural models, such as mE5-large and BGE-M3, demonstrate superior performance on most datasets, but face challenges with long-document retrieval due to input size constraints. RusBEIR offers a unified, open-source framework that promotes research in Russian-language information retrieval.
arxiv情報
著者 | Grigory Kovalev,Mikhail Tikhomirov,Evgeny Kozhevnikov,Max Kornilov,Natalia Loukachevitch |
発行日 | 2025-04-17 12:11:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google