Multi-EuP: The Multilingual European Parliament Dataset for Analysis of Bias in Information Retrieval

要約

我々はMulti-EuPを発表する。Multi-EuPは新しい多言語ベンチマークデータセットであり、欧州議会から収集された24言語にわたる22Kの多言語文書から構成される。このデータセットは、多言語情報検索(IR)の文脈における公平性を調査するために設計されており、ランキングの文脈における言語バイアスと人口統計バイアスの両方を分析する。このデータセットは、全24言語に翻訳されたトピックと、言語横断的な関連性判断を特徴とする、本物の多言語コーパスを誇っている。さらに、文書に関連する豊富な人口統計学的情報を提供し、人口統計学的バイアスの研究を容易にしている。我々は、Multi-EUPが単言語IRと多言語IRの両方のベンチマークに有効であることを報告する。また、トークン化戦略の選択によって引き起こされる言語バイアスに関する予備実験も行った。

要約(オリジナル)

We present Multi-EuP, a new multilingual benchmark dataset, comprising 22K multi-lingual documents collected from the European Parliament, spanning 24 languages. This dataset is designed to investigate fairness in a multilingual information retrieval (IR) context to analyze both language and demographic bias in a ranking context. It boasts an authentic multilingual corpus, featuring topics translated into all 24 languages, as well as cross-lingual relevance judgments. Furthermore, it offers rich demographic information associated with its documents, facilitating the study of demographic bias. We report the effectiveness of Multi-EuP for benchmarking both monolingual and multilingual IR. We also conduct a preliminary experiment on language bias caused by the choice of tokenization strategy.

arxiv情報

著者 Jinrui Yang,Timothy Baldwin,Trevor Cohn
発行日 2023-11-03 12:29:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク