Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs

要約

多言語大規模言語モデル (LLM) により、英語以外のタスクのパフォーマンスの上限が大幅に向上しました。
しかし、これらの LLM における多言語使用の背後にあるメカニズムはほとんど理解されていません。
特に興味深いのは、言語間で内部表現がどの程度共有されるかです。
LLM のニューロン解析に関する最近の研究は、単言語の場合に焦点を当てており、多言語の場合に関する限られた研究では、タスクと言語表現の間の相互作用が考慮されていません。
私たちの研究では、特定の入力に対するさまざまな言語にわたるニューロンの応答に従って、ニューロンを 4 つの異なるグループ (全共有、部分共有、特定、および非活性化) に分類することにより、ニューロンの活性化が言語間でどのように共有されるかを調査します。
この分類は、ニューロンの帰属、つまり出力に関するニューロンの重要性の研究と組み合わされます。
私たちの分析により、次の洞察が明らかになりました。(i) 言語共有パターンはタスクの種類に強く影響されますが、ニューロンの動作は同じタスクであっても入力が異なると変化します。
(ii) 全共有ニューロンは、正しい応答を生成する上で重要な役割を果たします。
(iii) 全共有ニューロンを増やすことで多言語アライメントを強化すると、多言語タスクの精度が向上します。
コードは https://github.com/weixuan-wang123/multilingual-neurons で入手できます。

要約(オリジナル)

Multilingual large language models (LLMs) have greatly increased the ceiling of performance on non-English tasks. However the mechanisms behind multilingualism in these LLMs are poorly understood. Of particular interest is the degree to which internal representations are shared between languages. Recent work on neuron analysis of LLMs has focused on the monolingual case, and the limited work on the multilingual case has not considered the interaction between tasks and linguistic representations. In our work, we investigate how neuron activation is shared across languages by categorizing neurons into four distinct groups according to their responses across different languages for a particular input: all-shared, partial-shared, specific, and non-activated. This categorization is combined with a study of neuron attribution, i.e. the importance of a neuron w.r.t an output. Our analysis reveals the following insights: (i) the linguistic sharing patterns are strongly affected by the type of task, but neuron behaviour changes across different inputs even for the same task; (ii) all-shared neurons play a key role in generating correct responses; (iii) boosting multilingual alignment by increasing all-shared neurons can enhance accuracy on multilingual tasks. The code is available at https://github.com/weixuan-wang123/multilingual-neurons.

arxiv情報

著者 Weixuan Wang,Barry Haddow,Wei Peng,Alexandra Birch
発行日 2024-06-13 16:04:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク