要約
単語は、意味上の類似性をエンコードする高次元ベクトル空間で表現され、同義語、反意語、関連コンテキストの取得などの下流アプリケーションを可能にします。
しかし、多言語言語モデル (LM) の最近の進歩にもかかわらず、意味検索コンテキストにおけるこれらのモデルの表現の有効性は包括的に調査されていません。
このギャップを埋めるために、この文書では、バイテキスト マイニングや検索拡張コンテキストによる分類などのセマンティック検索タスクにおける多言語 LM の能力を評価するように設計されたベンチマークである MINERS を紹介します。
私たちは、困難な言語間およびコードスイッチング設定におけるリソースが非常に少ない言語を含む、200 以上の多様な言語にわたってサンプルを取得する際の LM の堅牢性を評価するための包括的なフレームワークを作成します。
私たちの結果は、意味的に類似した埋め込みを取得するだけで、微調整を必要とせずに、最先端のアプローチと同等のパフォーマンスが得られることを示しています。
要約(オリジナル)
Words have been represented in a high-dimensional vector space that encodes their semantic similarities, enabling downstream applications such as retrieving synonyms, antonyms, and relevant contexts. However, despite recent advances in multilingual language models (LMs), the effectiveness of these models’ representations in semantic retrieval contexts has not been comprehensively explored. To fill this gap, this paper introduces the MINERS, a benchmark designed to evaluate the ability of multilingual LMs in semantic retrieval tasks, including bitext mining and classification via retrieval-augmented contexts. We create a comprehensive framework to assess the robustness of LMs in retrieving samples across over 200 diverse languages, including extremely low-resource languages in challenging cross-lingual and code-switching settings. Our results demonstrate that by solely retrieving semantically similar embeddings yields performance competitive with state-of-the-art approaches, without requiring any fine-tuning.
arxiv情報
著者 | Genta Indra Winata,Ruochen Zhang,David Ifeoluwa Adelani |
発行日 | 2024-09-24 15:43:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google