NLLB-E5: A Scalable Multilingual Retrieval Model

要約

多言語情報検索は大幅に進歩しているにもかかわらず、複数の言語、特にインド言語のような低リソースを効果的にサポートできるモデルの欠如が依然として重大な課題となっています。
この文書では、NLLB-E5: スケーラブルな多言語検索モデルについて説明します。
NLLB-E5 は、NLLB エンコーダに組み込まれた多言語機能を翻訳タスクに利用します。
これは、多言語トレーニング データを必要とせずに、すべての主要なインド言語を含む複数の言語を処理するゼロショット検索アプローチを提供する、多言語検索ツール E5 からの蒸留アプローチを提案しています。
ヒンディー語-BEIR を含む既存のベンチマークの包括的なスイートでモデルを評価し、さまざまな言語やタスクにわたってその堅牢なパフォーマンスを強調しています。
私たちの調査結果は、タスクおよびドメイン固有の課題を明らかにし、特に低リソース言語の検索パフォーマンスに関する貴重な洞察を提供します。
NLLB-E5 は、包括的でスケーラブルで言語に依存しないテキスト検索モデルに対する緊急のニーズに対応し、多言語情報アクセスの分野を前進させ、世界中の何百万人ものユーザーのデジタル包括性を促進します。

要約(オリジナル)

Despite significant progress in multilingual information retrieval, the lack of models capable of effectively supporting multiple languages, particularly low-resource like Indic languages, remains a critical challenge. This paper presents NLLB-E5: A Scalable Multilingual Retrieval Model. NLLB-E5 leverages the in-built multilingual capabilities in the NLLB encoder for translation tasks. It proposes a distillation approach from multilingual retriever E5 to provide a zero-shot retrieval approach handling multiple languages, including all major Indic languages, without requiring multilingual training data. We evaluate the model on a comprehensive suite of existing benchmarks, including Hindi-BEIR, highlighting its robust performance across diverse languages and tasks. Our findings uncover task and domain-specific challenges, providing valuable insights into the retrieval performance, especially for low-resource languages. NLLB-E5 addresses the urgent need for an inclusive, scalable, and language-agnostic text retrieval model, advancing the field of multilingual information access and promoting digital inclusivity for millions of users globally.

arxiv情報

著者 Arkadeep Acharya,Rudra Murthy,Vishwajeet Kumar,Jaydeep Sen
発行日 2024-09-09 07:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク