要約
類推的な推論は概念的な抽象化に依存していますが、大規模な言語モデル(LLM)がそのような内部表現を抱えているかどうかは不明です。
LLMの活性化からの蒸留表現を調査し、関数ベクトル(FVS; Todd et al。、2024) – コンテキスト学習(ICL)タスクのコンパクトな表現は、単純な入力の変更(例えば、オープンエンド対多系列)に不変ではありません。
表現類似性分析(RSA)を使用して、「反意語」などの言葉による概念に不変の概念ベクトル(CV)をコードする小さな注意ヘッドのセットをローカライズします。
これらのCVSは、最終出力とは独立して動作する特徴検出器として機能します。つまり、モデルは正しい内部表現を形成しながら、まだ誤った出力を生成する可能性があることを意味します。
さらに、CVはモデルの動作を因果的に誘導するために使用できます。
ただし、「以前」や「次」などのより抽象的な概念の場合、不変の線形表現は観察されません。これは、これらのドメイン内にLLMSが表示する一般化可能性の問題にリンクしています。
要約(オリジナル)
Analogical reasoning relies on conceptual abstractions, but it is unclear whether Large Language Models (LLMs) harbor such internal representations. We explore distilled representations from LLM activations and find that function vectors (FVs; Todd et al., 2024) – compact representations for in-context learning (ICL) tasks – are not invariant to simple input changes (e.g., open-ended vs. multiple-choice), suggesting they capture more than pure concepts. Using representational similarity analysis (RSA), we localize a small set of attention heads that encode invariant concept vectors (CVs) for verbal concepts like ‘antonym’. These CVs function as feature detectors that operate independently of the final output – meaning that a model may form a correct internal representation yet still produce an incorrect output. Furthermore, CVs can be used to causally guide model behaviour. However, for more abstract concepts like ‘previous’ and ‘next’, we do not observe invariant linear representations, a finding we link to generalizability issues LLMs display within these domains.
arxiv情報
著者 | Gustaw Opiełka,Hannes Rosenbusch,Claire E. Stevenson |
発行日 | 2025-03-05 16:59:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google