Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples

要約

モデルの横断的セマンティック検索機能の評価は、多くの場合、情報検索やセマンティックテキストの類似性などのタスクからの既存のデータセットに限定されます。
ドメイン固有の評価を可能にするために、ターゲットドメイン内の関心のある言語ペアの並列文ペアのセットのみを必要とする新しいクロスリンガルセマンティック検索タスクであるCross Lingual Semantic差別(CLSD)を紹介します。
このタスクは、モデルが大規模な言語モデルによって生成されたハードネガよりも高い真の並列文を横断的にランク付けする能力に焦点を当てています。
Newsのドメイン内で、Language Pairドイツフレンチのために導入されたCLSDタスクの4つのインスタンスを作成します。
このケーススタディ内では、検索タスク用にも微調整されたモデル(多言語E5)がピボット言語として英語を使用することで利点があり、LabseなどのBitextマイニングモデルは直接的に直接的にパフォーマンスを発揮することがわかります。
また、ディストラクタ生成戦略によって有効になっているきめの類似性分析も示し、さまざまな埋め込みモデルがさまざまなタイプの摂動に敏感であることを示しています。

要約(オリジナル)

The evaluation of cross-lingual semantic search capabilities of models is often limited to existing datasets from tasks such as information retrieval and semantic textual similarity. To allow for domain-specific evaluation, we introduce Cross Lingual Semantic Discrimination (CLSD), a novel cross-lingual semantic search task that requires only a set of parallel sentence pairs of the language pair of interest within the target domain. This task focuses on the ability of a model to cross-lingually rank the true parallel sentence higher than hard negatives generated by a large language model. We create four instances of our introduced CLSD task for the language pair German-French within the domain of news. Within this case study, we find that models that are also fine-tuned for retrieval tasks (e.g., multilingual E5) benefit from using English as the pivot language, while bitext mining models such as LaBSE perform best directly cross-lingually. We also show a fine-grained similarity analysis enabled by our distractor generation strategy, indicating that different embedding models are sensitive to different types of perturbations.

arxiv情報

著者 Andrianos Michail,Simon Clematide,Rico Sennrich
発行日 2025-02-12 18:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク