Separating Tongue from Thought: Activation Patching Reveals Language-Agnostic Concept Representations in Transformers

要約

多言語言語モデリングにおける中心的な問題は、大規模言語モデル (LLM) が特定の言語から切り離された普遍的な概念表現を開発するかどうかです。
この論文では、トランスフォーマーベースの LLM での単語翻訳タスク中の潜在表現 (潜在) を分析することで、この問題に取り組みます。
ソース翻訳プロンプトから戦略的に潜在情報を抽出し、ターゲット翻訳プロンプトのフォワード パスに挿入します。
そうすると、出力言語は翻訳対象の概念よりも前の層で潜在的に符号化されていることがわかります。
この洞察に基づいて、私たちは 2 つの重要な実験を実施します。
まず、言語を変更せずに概念を変更できること、またその逆もアクティベーション パッチのみで行えることを示します。
第 2 に、異なる言語間で潜在値に対する平均値をパッチしても、概念を翻訳する際のモデルのパフォーマンスが損なわれず、むしろ向上することを示します。
私たちの結果は、調査されたモデル内に言語に依存しない概念表現が存在するという証拠を提供します。

要約(オリジナル)

A central question in multilingual language modeling is whether large language models (LLMs) develop a universal concept representation, disentangled from specific languages. In this paper, we address this question by analyzing latent representations (latents) during a word translation task in transformer-based LLMs. We strategically extract latents from a source translation prompt and insert them into the forward pass on a target translation prompt. By doing so, we find that the output language is encoded in the latent at an earlier layer than the concept to be translated. Building on this insight, we conduct two key experiments. First, we demonstrate that we can change the concept without changing the language and vice versa through activation patching alone. Second, we show that patching with the mean over latents across different languages does not impair and instead improves the models’ performance in translating the concept. Our results provide evidence for the existence of language-agnostic concept representations within the investigated models.

arxiv情報

著者 Clément Dumas,Chris Wendler,Veniamin Veselovsky,Giovanni Monea,Robert West
発行日 2024-11-13 16:26:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク