How does Alignment Enhance LLMs’ Multilingual Capabilities? A Language Neurons Perspective

要約

多言語アラインメントは、LLMSの多言語機能を強化するための効果的かつ代表的なパラダイムであり、高リソース言語から低リソース言語に機能を転送します。
一方、言語固有のニューロンに関するいくつかの研究は、異なる言語を処理するときにLLMで選択的に活性化される言語固有のニューロンがあることを明らかにしています。
これにより、多言語シナリオでLLMSメカニズムをより具体的に分析および理解するための新しい視点が提供されます。
この作業では、言語ニューロン(言語固有のニューロンと言語関連のニューロンを含む)と言語存在に存在するニューロンを検出する新しいより細かい粒のニューロン識別アルゴリズムを提案します。
さらに、さまざまな種類のニューロンの分布特性に基づいて、多言語推論のためのLLMの内部プロセスを4つの部分に分割します:(1)多言語理解、(2)共有セマンティックスペース推論、(3)多言語出力スペース変換、(4)語彙スペース出力。
さらに、さまざまな種類のニューロンに焦点を合わせて、アライメントの前後にモデルを体系的に分析します。
また、「自発的多言語アライメント」の現象を分析します。
全体として、私たちの仕事は、さまざまな種類のニューロンに基づいた包括的な調査を実施し、LLMの多言語のアライメントと多言語機能をよりよく理解するための経験的な結果と貴重な洞察を提供します。

要約(オリジナル)

Multilingual Alignment is an effective and representative paradigm to enhance LLMs’ multilingual capabilities, which transfers the capabilities from the high-resource languages to the low-resource languages. Meanwhile, some researches on language-specific neurons reveal that there are language-specific neurons that are selectively activated in LLMs when processing different languages. This provides a new perspective to analyze and understand LLMs’ mechanisms more specifically in multilingual scenarios. In this work, we propose a new finer-grained neuron identification algorithm, which detects language neurons~(including language-specific neurons and language-related neurons) and language-agnostic neurons. Furthermore, based on the distributional characteristics of different types of neurons, we divide the LLMs’ internal process for multilingual inference into four parts: (1) multilingual understanding, (2) shared semantic space reasoning, (3) multilingual output space transformation, and (4) vocabulary space outputting. Additionally, we systematically analyze the models before and after alignment with a focus on different types of neurons. We also analyze the phenomenon of ”Spontaneous Multilingual Alignment”. Overall, our work conducts a comprehensive investigation based on different types of neurons, providing empirical results and valuable insights for better understanding multilingual alignment and multilingual capabilities of LLMs.

arxiv情報

著者 Shimao Zhang,Zhejian Lai,Xiang Liu,Shuaijie She,Xiao Liu,Yeyun Gong,Shujian Huang,Jiajun Chen
発行日 2025-05-27 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク