Discriminating Form and Meaning in Multilingual Models with Minimal-Pair ABX Tasks

要約

一連のトレーニングなしのABXスタイルの差別タスクを導入して、多言語モデルが言語のアイデンティティ(フォーム)とセマンティックコンテンツ(意味)をどのように表すかを評価します。
音声処理からインスピレーションを得て、これらのゼロショットタスクは、表現の最小限の違いを確実に検出できるかどうかを測定します。
これにより、プロービングの柔軟で解釈可能な代替手段が提供されます。
XLM-R(Conneau et al、2020)に事前登録チェックポイントとレイヤーに適用されると、言語差別はトレーニング上で減少し、下層に集中することがわかりますが、識別は時間の経過とともに強化され、より深い層で安定化します。
次に、調査タスクを調査し、メトリックと言語学習パフォーマンスの間の整合性を示します。
結果は、多言語表現の構造を分析するための軽量フレームワークとしてABXのタスクを位置付けています。

要約(オリジナル)

We introduce a set of training-free ABX-style discrimination tasks to evaluate how multilingual language models represent language identity (form) and semantic content (meaning). Inspired from speech processing, these zero-shot tasks measure whether minimal differences in representation can be reliably detected. This offers a flexible and interpretable alternative to probing. Applied to XLM-R (Conneau et al, 2020) across pretraining checkpoints and layers, we find that language discrimination declines over training and becomes concentrated in lower layers, while meaning discrimination strengthens over time and stabilizes in deeper layers. We then explore probing tasks, showing some alignment between our metrics and linguistic learning performance. Our results position ABX tasks as a lightweight framework for analyzing the structure of multilingual representations.

arxiv情報

著者 Maureen de Seyssel,Jie Chi,Skyler Seto,Maartje ter Hoeve,Masha Fedzechkina,Natalie Schluter
発行日 2025-06-02 12:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク