Shared Path: Unraveling Memorization in Multilingual LLMs through Language Similarities

要約

多言語の大規模な言語モデル(MLLM)での暗記に関する最初の包括的な研究を提示し、多様なモデルスケール、アーキテクチャ、および暗記の定義全体のモデルを使用して95の言語を分析します。
MLLMがますます展開されるにつれて、彼らの暗記行動を理解することが重要になりました。
しかし、以前の作業は主に単一言語モデルに焦点を合わせており、本質的に長期にわたる訓練コーパスの性質にもかかわらず、多言語の暗記が不足していません。
暗記はトレーニングデータの可用性と非常に相関しているという一般的な仮定は、MLLMの記憶パターンを完全に説明できないことがわかります。
私たちは、言語を単独で扱う – それらの類似性を無視する – は、暗記の真のパターンを曖昧にすると仮定します。
これに対処するために、言語の類似性を組み込んだ新しいグラフベースの相関指標を提案します。
私たちの分析は、同様の言語の中で、トレーニングトークンが少ない言語の中で、より高い暗記を示す傾向があることが明らかになりました。
これらの発見は、MLLMの記憶の脆弱性を評価し、緩和する際の言語認識の視点の重要性を強調しています。
これは、言語の類似性がMLLMの記憶と、多言語のNLPに幅広い意味を持つ、言語横断的移動性の基礎を説明するという経験的証拠も構成しています。

要約(オリジナル)

We present the first comprehensive study of Memorization in Multilingual Large Language Models (MLLMs), analyzing 95 languages using models across diverse model scales, architectures, and memorization definitions. As MLLMs are increasingly deployed, understanding their memorization behavior has become critical. Yet prior work has focused primarily on monolingual models, leaving multilingual memorization underexplored, despite the inherently long-tailed nature of training corpora. We find that the prevailing assumption, that memorization is highly correlated with training data availability, fails to fully explain memorization patterns in MLLMs. We hypothesize that treating languages in isolation – ignoring their similarities – obscures the true patterns of memorization. To address this, we propose a novel graph-based correlation metric that incorporates language similarity to analyze cross-lingual memorization. Our analysis reveals that among similar languages, those with fewer training tokens tend to exhibit higher memorization, a trend that only emerges when cross-lingual relationships are explicitly modeled. These findings underscore the importance of a language-aware perspective in evaluating and mitigating memorization vulnerabilities in MLLMs. This also constitutes empirical evidence that language similarity both explains Memorization in MLLMs and underpins Cross-lingual Transferability, with broad implications for multilingual NLP.

arxiv情報

著者 Xiaoyu Luo,Yiyi Chen,Johannes Bjerva,Qiongxiu Li
発行日 2025-05-21 16:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク