Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models

要約

大規模言語モデル (LLM) は、特に多言語コンテキストにおいて顕著なパフォーマンスを実証しています。
最近の研究では、LLM がある言語で学習したスキルを他の言語に伝達できることが示唆されていますが、この能力の背後にある内部メカニズムは不明のままです。
私たちは、同じ言語を処理するときに LLM のニューロン活性化パターンが類似性を示すことを観察し、主要な言語領域の存在と位置を明らかにしました。
さらに、異なる言語で同じ意味を持つ文を処理する場合、ニューロンの活性化パターンは類似していることがわかりました。
これは、LLM が異なる言語からの意味的に同一の入力を、言語間で一貫した処理を可能にする共通の意味論的潜在空間である「リンガ フランカ」にマッピングしていることを示しています。
この意味論的な整合性は、トレーニングとモデル サイズの増加によってさらに顕著になり、その結果、より言語に依存しないアクティベーション パターンが生じます。
さらに、主要な言語ニューロンが LLM の最初と最後の層に集中しており、トレーニングが進むにつれて最初の層の密度が高くなることがわかりました。
BLOOM と LLaMA2 の実験はこれらの発見を裏付けており、トレーニングとスケールアップ中の多言語 LLM の構造的進化を強調しています。
このホワイトペーパーは、LLM の内部動作についての洞察を提供し、言語を超えた機能の将来の改善のための基盤を提供します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable performance, particularly in multilingual contexts. While recent studies suggest that LLMs can transfer skills learned in one language to others, the internal mechanisms behind this ability remain unclear. We observed that the neuron activation patterns of LLMs exhibit similarities when processing the same language, revealing the existence and location of key linguistic regions. Additionally, we found that neuron activation patterns are similar when processing sentences with the same semantic meaning in different languages. This indicates that LLMs map semantically identical inputs from different languages into a ‘Lingua Franca’, a common semantic latent space that allows for consistent processing across languages. This semantic alignment becomes more pronounced with training and increased model size, resulting in a more language-agnostic activation pattern. Moreover, we found that key linguistic neurons are concentrated in the first and last layers of LLMs, becoming denser in the first layers as training progresses. Experiments on BLOOM and LLaMA2 support these findings, highlighting the structural evolution of multilingual LLMs during training and scaling up. This paper provides insights into the internal workings of LLMs, offering a foundation for future improvements in their cross-lingual capabilities.

arxiv情報

著者 Hongchuan Zeng,Senyu Han,Lu Chen,Kai Yu
発行日 2024-10-15 15:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク