Understanding the Inner Workings of Language Models Through Representation Dissimilarity

要約

言語モデルが現実世界のアプリケーションに適用されることが増えるにつれ、その内部動作を理解することが、モデルの信頼性、解釈可能性、透明性において重要な問題となっています。
この研究では、2 つのモデルの内部表現がどの程度異なるかを測定する関数である表現相違度測定が、言語モデルの仕組みを理解するための貴重なツールとなり得ることを示します。
私たちの洞察には、(i) SoLU および GeLU 活性化関数を使用したモデルの内部表現における明らかな非対称性、(ii) 非類似性測定により、分布内のテスト セットのパフォーマンスでは見えないモデルの一般化特性を特定および特定できるという証拠、
(iii) 幅と深さが増加するにつれて言語モデルの機能がどのように変化するかについての新しい評価。
私たちの結果は、非類似性測定が言語モデルの内部動作に光を当てるための有望なツールセットであることを示唆しています。

要約(オリジナル)

As language models are applied to an increasing number of real-world applications, understanding their inner workings has become an important issue in model trust, interpretability, and transparency. In this work we show that representation dissimilarity measures, which are functions that measure the extent to which two model’s internal representations differ, can be a valuable tool for gaining insight into the mechanics of language models. Among our insights are: (i) an apparent asymmetry in the internal representations of model using SoLU and GeLU activation functions, (ii) evidence that dissimilarity measures can identify and locate generalization properties of models that are invisible via in-distribution test set performance, and (iii) new evaluations of how language model features vary as width and depth are increased. Our results suggest that dissimilarity measures are a promising set of tools for shedding light on the inner workings of language models.

arxiv情報

著者 Davis Brown,Charles Godfrey,Nicholas Konz,Jonathan Tu,Henry Kvinge
発行日 2023-10-23 14:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク