要約
情報検索 (IR) 分野では包括性の重要性がますます認識されていますが、低リソース言語のニーズに対処することは依然として大きな課題です。
このペーパーでは、MS MARCO データセットを機械翻訳によって翻訳することによって作成された、最初の大規模ウルドゥー語 IR データセットを紹介します。
ウルドゥー語での IR のゼロショット学習を通じてベースライン結果を確立し、その後、この新しく翻訳されたデータセットに mMARCO 多言語 IR 手法を適用します。
私たちの調査結果は、微調整されたモデル (Urdu-mT5-mMARCO) が 0.247 の平均逆数ランク (MRR@10) と 0.439 の Recall@10 を達成していることを示しており、ゼロショットの結果に比べて大幅な改善を示し、拡張の可能性を示しています。
ウルドゥー語話者のための IR アクセス。
この研究は、リソースの少ない言語を話す人々のアクセスギャップを埋めることにより、多言語IR研究を前進させるだけでなく、包括的なIR技術の倫理的および社会的重要性も強調します。
この研究は、言語表現を改善するための課題と解決策について貴重な洞察を提供し、特に南アジア言語における将来の研究の基礎を築き、この研究で使用された適応可能な手法の恩恵を受けることができます。
要約(オリジナル)
As the Information Retrieval (IR) field increasingly recognizes the importance of inclusivity, addressing the needs of low-resource languages remains a significant challenge. This paper introduces the first large-scale Urdu IR dataset, created by translating the MS MARCO dataset through machine translation. We establish baseline results through zero-shot learning for IR in Urdu and subsequently apply the mMARCO multilingual IR methodology to this newly translated dataset. Our findings demonstrate that the fine-tuned model (Urdu-mT5-mMARCO) achieves a Mean Reciprocal Rank (MRR@10) of 0.247 and a Recall@10 of 0.439, representing significant improvements over zero-shot results and showing the potential for expanding IR access for Urdu speakers. By bridging access gaps for speakers of low-resource languages, this work not only advances multilingual IR research but also emphasizes the ethical and societal importance of inclusive IR technologies. This work provides valuable insights into the challenges and solutions for improving language representation and lays the groundwork for future research, especially in South Asian languages, which can benefit from the adaptable methods used in this study.
arxiv情報
著者 | Umer Butt,Stalin Veranasi,Günter Neumann |
発行日 | 2024-12-17 15:21:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google