One Mind, Many Tongues: A Deep Dive into Language-Agnostic Knowledge Neurons in Large Language Models

要約

大規模言語モデル (LLM) は、大規模なコーパスでの自己教師付き事前トレーニングを通じて、膨大な量の事実の知識を学習しました。
一方、LLM は、学んだ知識を複数の言語で表現できる優れた多言語能力も実証しています。
しかし、LLM の知識記憶メカニズムは依然として謎のままです。
一部の研究者は、知識ニューロンの観点からLLMの事実知識を解明しようと試み、その後、言語の壁を超えた形式で事実知識を保存する言語非依存知識ニューロンを発見しています。
ただし、予備的な発見には 2 つの制限があります: 1) 位置特定結果の不確実性が高い。
既存の研究では、プロンプトベースのプローブのみを使用して各事実の知識ニューロンを特定しますが、LLM は意味的に同等のクエリに対して一貫した回答を提供できません。
したがって、不確実性が高く、不正確な位置特定結果が得られます。
2) より多くの言語での分析が不足している。
この研究では、英語と中国語のデータについて言語に依存しない知識ニューロンのみを分析し、さらに多くの言語族や言語を調査していません。
当然のことながら、調査結果の一般化可能性は制限されます。
前述の問題に対処するために、まず Rephrased Multilingual LAMA (RML-LAMA) と呼ばれる新しいベンチマークを構築します。このベンチマークには、ファクトごとに高品質な Cloze スタイルの多言語並列クエリが含まれています。
次に、知識ローカライゼーション中のクエリと言語にわたる不確実性を定量化する、Multilingual Integrated Gradients with Uncertainty Estimation (MATRICE) という新しい方法を提案します。
広範な実験により、私たちの方法が言語に依存しない知識ニューロンの位置を正確に特定できることが示されました。
また、言語を越えた知識の編集、知識の強化、新しい知識の注入における言語に依存しない知識ニューロンの役割についてもさらに調査します。

要約(オリジナル)

Large language models (LLMs) have learned vast amounts of factual knowledge through self-supervised pre-training on large-scale corpora. Meanwhile, LLMs have also demonstrated excellent multilingual capabilities, which can express the learned knowledge in multiple languages. However, the knowledge storage mechanism in LLMs still remains mysterious. Some researchers attempt to demystify the factual knowledge in LLMs from the perspective of knowledge neurons, and subsequently discover language-agnostic knowledge neurons that store factual knowledge in a form that transcends language barriers. However, the preliminary finding suffers from two limitations: 1) High Uncertainty in Localization Results. Existing study only uses a prompt-based probe to localize knowledge neurons for each fact, while LLMs cannot provide consistent answers for semantically equivalent queries. Thus, it leads to inaccurate localization results with high uncertainty. 2) Lack of Analysis in More Languages. The study only analyzes language-agnostic knowledge neurons on English and Chinese data, without exploring more language families and languages. Naturally, it limits the generalizability of the findings. To address aforementioned problems, we first construct a new benchmark called Rephrased Multilingual LAMA (RML-LAMA), which contains high-quality cloze-style multilingual parallel queries for each fact. Then, we propose a novel method named Multilingual Integrated Gradients with Uncertainty Estimation (MATRICE), which quantifies the uncertainty across queries and languages during knowledge localization. Extensive experiments show that our method can accurately localize language-agnostic knowledge neurons. We also further investigate the role of language-agnostic knowledge neurons in cross-lingual knowledge editing, knowledge enhancement and new knowledge injection.

arxiv情報

著者 Pengfei Cao,Yuheng Chen,Zhuoran Jin,Yubo Chen,Kang Liu,Jun Zhao
発行日 2024-11-26 13:03:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク