要約
最近、大規模言語モデル (LLM) は言語処理の分野で大きな進歩を遂げましたが、複数の言語を処理するメカニズムは依然として不可知です。
したがって、この研究では、LLM の多言語活性化パターンを研究します。
オリジナルの大規模言語モデル (LLM) を専門家混合 (MoE) アーキテクチャに変換することで、さまざまな言語を処理する際のエキスパートの活性化パターンを分析し、言語ファミリーのレベルでこれらの活性化パターンの関連性を実証します。
私たちは、言語固有の活性化ニューロンだけでなく、非言語固有のニューロンの存在を発見しました。
さらに調査を進めると、高周波活性化ニューロンを利用するだけで、同等のパフォーマンスを維持しながら推論を加速できることがわかりました。
これらの発見は、LLM の多言語処理メカニズムに光を当て、LLM の多言語トレーニングとモデルの枝刈りを導く上で非常に重要です。
要約(オリジナル)
Recently, large language models (LLMs) have achieved tremendous breakthroughs in the field of language processing, yet their mechanisms in processing multiple languages remain agnostic. Therefore, in this work we study the multilingual activation patterns of LLMs. By transforming the original Large Language Models (LLMs) into a Mixture of Experts (MoE) architecture, we analyze the expert activation patterns when processing various languages and demonstrate the connections of these activation patterns at the level of language families. We discover the existence of non-language-specific neurons as well as language-specific activation neurons. Further exploration even showcases that merely leveraging high-frequency activation neurons can accelerate inference while maintaining comparable performance. These findings shed light on the LLMs’ multilingual processing mechanism, and are of significant importance in guiding the multilingual training and model pruning of LLMs.
arxiv情報
著者 | Weize Liu,Yinlong Xu,Hongxia Xu,Jintai Chen,Xuming Hu,Jian Wu |
発行日 | 2024-02-26 07:44:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google