Interpretability Illusions in the Generalization of Simplified Models

要約

深層学習システムを研究する一般的な方法は、単純化されたモデル表現を使用することです。たとえば、特異値分解を使用して、モデルの隠れた状態を低次元空間で視覚化します。
このアプローチは、これらの単純化された結果が元のモデルに忠実であることを前提としています。
ここで、この仮定に対する重要な注意点を説明します。たとえ単純化された表現がトレーニング セット上の完全なモデルを正確に近似できたとしても、分布からモデルの動作を正確に捉えることができない可能性があります。単純化された表現から得られた理解は、困難になる可能性があります。
幻想。
これを、系統的な汎化分割を使用して制御されたデータセットで Transformer モデルをトレーニングすることで説明します。
まず、Dyck 平衡括弧言語でモデルをトレーニングします。
次元削減やクラスタリングなどのツールを使用してこれらのモデルを単純化し、これらの単純化されたプロキシが配布外のさまざまなテスト セットで元のモデルの動作とどのように一致するかを明示的にテストします。
簡略化されたプロキシは、一般的に配布対象外では忠実度が低いことがわかります。
元のモデルが新しい構造やより深い深さに一般化される場合、簡略化されたバージョンは失敗するか、より適切に一般化される可能性があります。
この発見は、単純化された表現がトレーニング分布に直接依存しない場合でも当てはまります。
次に、より自然なタスク、つまりコンピューター コードのデータセット内の次の文字を予測するタスクを研究します。
元のモデルと単純化されたプロキシの間に同様の一般化ギャップを発見し、さらなる分析を行って、コード補完タスクのどの側面が最大のギャップに関連しているかを調査します。
まとめると、私たちの結果は、SVD などのツールを使用して導出されたメカニズムの解釈が、新しい状況でモデルが何を行うかをどの程度確実に予測できるかについて疑問を引き起こします。

要約(オリジナル)

A common method to study deep learning systems is to use simplified model representations — for example, using singular value decomposition to visualize the model’s hidden states in a lower dimensional space. This approach assumes that the results of these simplified are faithful to the original model. Here, we illustrate an important caveat to this assumption: even if the simplified representations can accurately approximate the full model on the training set, they may fail to accurately capture the model’s behavior out of distribution — the understanding developed from simplified representations may be an illusion. We illustrate this by training Transformer models on controlled datasets with systematic generalization splits. First, we train models on the Dyck balanced-parenthesis languages. We simplify these models using tools like dimensionality reduction and clustering, and then explicitly test how these simplified proxies match the behavior of the original model on various out-of-distribution test sets. We find that the simplified proxies are generally less faithful out of distribution. In cases where the original model generalizes to novel structures or deeper depths, the simplified versions may fail, or generalize better. This finding holds even if the simplified representations do not directly depend on the training distribution. Next, we study a more naturalistic task: predicting the next character in a dataset of computer code. We find similar generalization gaps between the original model and simplified proxies, and conduct further analysis to investigate which aspects of the code completion task are associated with the largest gaps. Together, our results raise questions about the extent to which mechanistic interpretations derived using tools like SVD can reliably predict what a model will do in novel situations.

arxiv情報

著者 Dan Friedman,Andrew Lampinen,Lucas Dixon,Danqi Chen,Asma Ghandeharioun
発行日 2023-12-06 18:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク