Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval

要約

変圧器ベースの事前訓練を受けた言語モデルを使用したニューラル検索方法には、多言語と横断的な検索が高度にあります。
しかし、低リソースの有効性、Amharicなどの形態学的に豊富な言語は、データの希少性と最適ではないトークン化のために露出不足のままです。
事前に訓練されたAmharic BertおよびRobertaのバックボーンに基づいて、Amharic特異的な密な検索モデルを導入することにより、このギャップに対処します。
提案されたRoberta-base-Amharic-埋め込みモデル（110mパラメーター）は、MRR@10の17.6％の相対的な改善を達成し、最強の多言語ベースラインでRecall@10で9.86％の増加を達成しました。
Roberta-Medium-Amharic-Membed（42m）などのよりコンパクトなバリエーションは、13倍以上の競争力を維持しています。
さらに、すべての評価されたモデルの中で最高のMRR@10スコア（0.843）を達成するコルバートベースの後期相互作用検索モデルをトレーニングします。
提案されたモデルは、Amharicの検索効果を体系的に評価するために、スパースと密な検索ベースラインの両方に対してベンチマークします。
私たちの分析は、低リソースの設定における重要な課題を強調し、言語固有の適応の重要性を強調しています。
低リソースIRの将来の研究を促進するために、https://github.com/kidist-amde/amharic-ir-benchmarksでデータセット、コードベース、トレーニングモデルを公開します。

要約(オリジナル)

Neural retrieval methods using transformer-based pre-trained language models have advanced multilingual and cross-lingual retrieval. However, their effectiveness for low-resource, morphologically rich languages such as Amharic remains underexplored due to data scarcity and suboptimal tokenization. We address this gap by introducing Amharic-specific dense retrieval models based on pre-trained Amharic BERT and RoBERTa backbones. Our proposed RoBERTa-Base-Amharic-Embed model (110M parameters) achieves a 17.6% relative improvement in MRR@10 and a 9.86% gain in Recall@10 over the strongest multilingual baseline, Arctic Embed 2.0 (568M parameters). More compact variants, such as RoBERTa-Medium-Amharic-Embed (42M), remain competitive while being over 13x smaller. Additionally, we train a ColBERT-based late interaction retrieval model that achieves the highest MRR@10 score (0.843) among all evaluated models. We benchmark our proposed models against both sparse and dense retrieval baselines to systematically assess retrieval effectiveness in Amharic. Our analysis highlights key challenges in low-resource settings and underscores the importance of language-specific adaptation. To foster future research in low-resource IR, we publicly release our dataset, codebase, and trained models at https://github.com/kidist-amde/amharic-ir-benchmarks.

arxiv情報

著者	Kidist Amde Mekonnen,Yosef Worku Alemneh,Maarten de Rijke
発行日	2025-06-10 13:33:12+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー