Interpretability Illusions in the Generalization of Simplified Models

要約

深層学習システムを研究する一般的な方法は、単純化されたモデル表現を使用することです。たとえば、特異値分解を使用して、モデルの隠れた状態を低次元空間で視覚化します。
このアプローチは、これらの単純化の結果が元のモデルに忠実であることを前提としています。
ここで、この仮定に対する重要な注意点を説明します。単純化された表現がトレーニング セット上の完全なモデルを正確に近似できたとしても、分布外のモデルの動作を正確にキャプチャできない可能性があります。
これを、Dyck 平衡括弧言語やコード補完タスクなどの体系的な一般化分割を使用して、制御されたデータセット上で Transformer モデルをトレーニングすることで説明します。
次元削減やクラスタリングなどのツールを使用してこれらのモデルを単純化し、これらの単純化されたプロキシが元のモデルの動作とどのように一致するかを明示的にテストします。
一貫した汎化ギャップが見つかりました。つまり、単純化されたプロキシが分布内評価では元のモデルにより忠実であるが、体系的な汎化のさまざまなテストでは忠実ではないケースです。
これには、元のモデルは体系的に一般化するが、単純化されたプロキシが失敗するケースや、単純化されたプロキシの方がより一般化されるケースが含まれます。
まとめると、私たちの結果は、SVD などのツールを使用して導出されたメカニズムの解釈が、新しい状況でモデルが何を行うかをどの程度確実に予測できるかについて疑問を引き起こします。

要約(オリジナル)

A common method to study deep learning systems is to use simplified model representations–for example, using singular value decomposition to visualize the model’s hidden states in a lower dimensional space. This approach assumes that the results of these simplifications are faithful to the original model. Here, we illustrate an important caveat to this assumption: even if the simplified representations can accurately approximate the full model on the training set, they may fail to accurately capture the model’s behavior out of distribution. We illustrate this by training Transformer models on controlled datasets with systematic generalization splits, including the Dyck balanced-parenthesis languages and a code completion task. We simplify these models using tools like dimensionality reduction and clustering, and then explicitly test how these simplified proxies match the behavior of the original model. We find consistent generalization gaps: cases in which the simplified proxies are more faithful to the original model on the in-distribution evaluations and less faithful on various tests of systematic generalization. This includes cases where the original model generalizes systematically but the simplified proxies fail, and cases where the simplified proxies generalize better. Together, our results raise questions about the extent to which mechanistic interpretations derived using tools like SVD can reliably predict what a model will do in novel situations.

arxiv情報

著者 Dan Friedman,Andrew Lampinen,Lucas Dixon,Danqi Chen,Asma Ghandeharioun
発行日 2024-06-05 15:03:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク