Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models

要約

大規模言語モデル (LLM) の隠れた表現にエンコードされた情報を検査すると、モデルの動作を説明し、人間の価値観との整合性を検証できます。
人間が理解できるテキストを生成する LLM の機能を考慮して、モデル自体を活用してその内部表現を自然言語で説明することを提案します。
Patchscopes と呼ばれるフレームワークを紹介し、それを使用して LLM の計算に関する幅広い質問に答える方法を示します。
我々は、表現を語彙空間に投影し、LLM 計算に介入することに基づく従来の解釈可能性手法が、このフレームワークのインスタンスとして見なせることを示します。
さらに、初期レイヤの検査の失敗や表現力の欠如などのいくつかの欠点は、Patchscope によって軽減できます。
Patchscopes は、以前の検査技術を統合するだけでなく、より小規模なモデルの表現を説明するためにより有能なモデルを使用するなどの新たな可能性も開き、マルチホップ推論における自己修正などの新しいアプリケーションを可能にします。

要約(オリジナル)

Inspecting the information encoded in hidden representations of large language models (LLMs) can explain models’ behavior and verify their alignment with human values. Given the capabilities of LLMs in generating human-understandable text, we propose leveraging the model itself to explain its internal representations in natural language. We introduce a framework called Patchscopes and show how it can be used to answer a wide range of questions about an LLM’s computation. We show that prior interpretability methods based on projecting representations into the vocabulary space and intervening on the LLM computation can be viewed as instances of this framework. Moreover, several of their shortcomings such as failure in inspecting early layers or lack of expressivity can be mitigated by Patchscopes. Beyond unifying prior inspection techniques, Patchscopes also opens up new possibilities such as using a more capable model to explain the representations of a smaller model, and unlocks new applications such as self-correction in multi-hop reasoning.

arxiv情報

著者 Asma Ghandeharioun,Avi Caciularu,Adam Pearce,Lucas Dixon,Mor Geva
発行日 2024-01-12 17:54:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク