要約
イディオムは、非相続的な比ur的な意味のために言語モデルにユニークな課題を提示します。これは、イディオムの文字通りの解釈から強く異なることがよくあります。
この二重性には、2つの意味を表現して決定するモデルが、比fig的な意味で、または文字通りイディオムを解釈するための2つの意味を決定する必要があります。
このホワイトペーパーでは、機械的解釈可能性からツールを使用して、大規模な前提条件の因果変圧器(llama3.2-1bベース)がこのあいまいさをどのように扱うかを追跡します。
イディオム処理の3つのステップをローカライズします。まず、イディオムの比ur的な意味は、早期の注意とMLPサブレイヤーで取得されます。
イディオムの文字通りの解釈を抑制しながら、イディオムの比ur的な意味を高める特定の注意ヘッドを特定します。
その後、モデルは中間経路を介した比ur的な表現を表します。
一方、平行バイパスルートは文字通りの解釈を前進させ、両方の読み取りが利用できるようにします。
全体として、私たちの調査結果は、自己回帰トランスにおけるイディオム理解の機械的証拠を提供します。
要約(オリジナル)
Idioms present a unique challenge for language models due to their non-compositional figurative meanings, which often strongly diverge from the idiom’s literal interpretation. This duality requires a model to learn representing and deciding between the two meanings to interpret an idiom in a figurative sense, or literally. In this paper, we employ tools from mechanistic interpretability to trace how a large pretrained causal transformer (LLama3.2-1B-base) deals with this ambiguity. We localize three steps of idiom processing: First, the idiom’s figurative meaning is retrieved in early attention and MLP sublayers. We identify specific attention heads which boost the figurative meaning of the idiom while suppressing the idiom’s literal interpretation. The model subsequently represents the figurative representation through an intermediate path. Meanwhile, a parallel bypass route forwards literal interpretation, ensuring that a both reading remain available. Overall, our findings provide a mechanistic evidence for idiom comprehension in an autoregressive transformer.
arxiv情報
著者 | Soyoung Oh,Xinting Huang,Mathis Pink,Michael Hahn,Vera Demberg |
発行日 | 2025-06-06 13:41:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google