Unveiling Linguistic Regions in Large Language Models

要約

大規模言語モデル (LLM) は、多言語間の調整と一般化能力を実証しています。
現在の研究は主に、LLM の言語を超えた一般化能力の向上に焦点を当てています。
しかし、LLM がどのようにして言語間連携を達成するのかという本質的なメカニズムに関する研究はまだ不足しています。
本稿では、領域分割の観点から、LLM の言語能力についていくつかの調査を行った。
私たちは、言語能力に対応する LLM の中核領域を発見しました。これは、モデル パラメータ全体の約 1% を占めます。
パラメーターをゼロに設定してこのコア領域を削除すると、30 の異なる言語にわたってパフォーマンスが大幅に低下します。
さらに、このコア領域は重大な次元依存性を示し、特定の次元上の単一パラメータにさえ摂動が生じると、言語能力の損失につながります。
さらに、さまざまな言語には個別の単一言語地域が存在し、これらの特定の地域が破壊されると、対応する言語における LLM の習熟度が大幅に低下することがわかりました。
私たちの研究はまた、さらなる事前トレーニング中にコア言語領域をフリーズすると、LLM のさらなる事前トレーニング中に観察される一般的な現象である壊滅的忘却 (CF) の問題を軽減できることも示しています。
全体として、LLM の機能領域を調査すると、LLM のインテリジェンスの基礎についての洞察が得られます。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated considerable cross-lingual alignment and generalization ability. Current research primarily focuses on improving LLMs’ cross-lingual generalization capabilities. However, there is still a lack of research on the intrinsic mechanisms of how LLMs achieve cross-lingual alignment. From the perspective of region partitioning, this paper conducts several investigations on the linguistic competence of LLMs. We discover a core region in LLMs that corresponds to linguistic competence, accounting for approximately 1% of the total model parameters. Removing this core region by setting parameters to zero results in a significant performance decrease across 30 different languages. Furthermore, this core region exhibits significant dimensional dependence, perturbations to even a single parameter on specific dimensions leading to a loss of linguistic competence. Moreover, we discover that distinct monolingual regions exist for different languages, and disruption to these specific regions substantially reduces the LLMs’ proficiency in those corresponding languages. Our research also indicates that freezing the core linguistic region during further pre-training can mitigate the issue of catastrophic forgetting (CF), a common phenomenon observed during further pre-training of LLMs. Overall, exploring the LLMs’ functional regions provides insights into the foundation of their intelligence.

arxiv情報

著者 Zhihao Zhang,Jun Zhao,Qi Zhang,Tao Gui,Xuanjing Huang
発行日 2024-05-30 17:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク