Unveiling LLMs: The Evolution of Latent Representations in a Temporal Knowledge Graph

要約

大規模言語モデル(LLM)は、一般的な事実知識情報の膨大な範囲を想起する素晴らしい能力を示す。しかしながら、LLMの根底にある推論を解明し、この事実知識を利用する内部メカニズムを説明することは、依然として活発な研究分野である。本研究では、事実の主張の真実性を評価するよう促されたときのLLMの潜在的表現に符号化された事実知識を分析する。我々は、LLMの潜在空間に埋め込まれた事実知識を、ベクトル空間から述語の集合へと共同でデコードし、時間的知識グラフを用いて階層間のその進化を表現する、エンド・ツー・エンドのフレームワークを提案する。我々のフレームワークは、モデルの潜在表現を動的に変更することにより、モデルの推論計算に介入する活性化パッチングの技法に依存している。その結果、外部モデルや学習過程に依存しない。我々は、2つのクレーム検証データセットを用いた局所的及び大域的な解釈可能性分析により、我々のフレームワークを紹介する:FEVERとCLIMATE-FEVERである。局所的な解釈可能性分析では、表現からマルチホップ推論エラーまで、様々な潜在的エラーを明らかにする。一方、グローバル分析では、モデルの事実知識(例えば、事実情報の蓄積と探索)の基礎となる進化のパターンを明らかにした。潜在的表現のグラフベースの分析を可能にすることで、本研究はLLMの機械論的解釈可能性への一歩となる。

要約(オリジナル)

Large Language Models (LLMs) demonstrate an impressive capacity to recall a vast range of common factual knowledge information. However, unravelling the underlying reasoning of LLMs and explaining their internal mechanisms of exploiting this factual knowledge remain active areas of investigation. Our work analyzes the factual knowledge encoded in the latent representation of LLMs when prompted to assess the truthfulness of factual claims. We propose an end-to-end framework that jointly decodes the factual knowledge embedded in the latent space of LLMs from a vector space to a set of ground predicates and represents its evolution across the layers using a temporal knowledge graph. Our framework relies on the technique of activation patching which intervenes in the inference computation of a model by dynamically altering its latent representations. Consequently, we neither rely on external models nor training processes. We showcase our framework with local and global interpretability analyses using two claim verification datasets: FEVER and CLIMATE-FEVER. The local interpretability analysis exposes different latent errors from representation to multi-hop reasoning errors. On the other hand, the global analysis uncovered patterns in the underlying evolution of the model’s factual knowledge (e.g., store-and-seek factual information). By enabling graph-based analyses of the latent representations, this work represents a step towards the mechanistic interpretability of LLMs.

arxiv情報

著者 Marco Bronzini,Carlo Nicolini,Bruno Lepri,Jacopo Staiano,Andrea Passerini
発行日 2024-04-04 17:45:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク