BEIR-PL: Zero Shot Information Retrieval Benchmark for the Polish Language

要約

BEIR データセットは、ゼロショット設定での情報検索 (IR) のための大規模な異種ベンチマークであり、研究コミュニティ内で大きな注目を集めています。
ただし、BEIR および類似のデータセットは主に英語に限定されています。
私たちの目的は、ポーランド語による IR のための広範で大規模なリソースを確立し、それによってこの NLP 分野の研究を前進させることです。
この作業では、mMARCO と Mr.~TyDi データセットに触発され、すべてのアクセス可能なオープン IR データセットをポーランド語に翻訳し、BEIR-PL ベンチマークを導入しました。これは 13 のデータセットで構成され、さらなる開発、トレーニング、評価を促進する新しいベンチマークです。
IR タスク用の最新のポーランド語モデル。
新しく導入された BEIR-PL ベンチマークで多数の IR モデルの評価と比較を実行しました。
さらに、ポーランド語用の​​事前トレーニング済みオープン IR モデルを公開しており、この分野での先駆的な開発となっています。
さらに、評価では、BM25 が英語よりもポーランド語で著しく低いスコアを達成したことが明らかになりました。これは、ポーランド語の高度な語尾変化と複雑な形態学的構造に起因すると考えられます。
最後に、BM25 検索を強化するためにさまざまな再ランキング モデルをトレーニングし、それらのパフォーマンスを比較して独自の特徴的な機能を特定しました。
モデルを正確に比較するには、ベンチマーク全体の平均ではなく、個々の結果を精査する必要があります。
したがって、BEIR ベンチマークに含まれる個々のデータ サブセットに関連する IR モデルの結果を徹底的に分析しました。
ベンチマーク データは URL {\bf https://huggingface.co/clarin-knext} で入手できます。

要約(オリジナル)

The BEIR dataset is a large, heterogeneous benchmark for Information Retrieval (IR) in zero-shot settings, garnering considerable attention within the research community. However, BEIR and analogous datasets are predominantly restricted to the English language. Our objective is to establish extensive large-scale resources for IR in the Polish language, thereby advancing the research in this NLP area. In this work, inspired by mMARCO and Mr.~TyDi datasets, we translated all accessible open IR datasets into Polish, and we introduced the BEIR-PL benchmark — a new benchmark which comprises 13 datasets, facilitating further development, training and evaluation of modern Polish language models for IR tasks. We executed an evaluation and comparison of numerous IR models on the newly introduced BEIR-PL benchmark. Furthermore, we publish pre-trained open IR models for Polish language,d marking a pioneering development in this field. Additionally, the evaluation revealed that BM25 achieved significantly lower scores for Polish than for English, which can be attributed to high inflection and intricate morphological structure of the Polish language. Finally, we trained various re-ranking models to enhance the BM25 retrieval, and we compared their performance to identify their unique characteristic features. To ensure accurate model comparisons, it is necessary to scrutinise individual results rather than to average across the entire benchmark. Thus, we thoroughly analysed the outcomes of IR models in relation to each individual data subset encompassed by the BEIR benchmark. The benchmark data is available at URL {\bf https://huggingface.co/clarin-knext}.

arxiv情報

著者 Konrad Wojtasik,Vadim Shishkin,Kacper Wołowiec,Arkadiusz Janz,Maciej Piasecki
発行日 2024-05-16 10:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク