Monotonic Representation of Numeric Properties in Language Models

要約

言語モデル (LM) は、カール ポパーは 1902 年生まれなど、数値プロパティを含む事実知識を表現できます。しかし、この情報がモデルの内部表現でどのようにエンコードされるかはよくわかっていません。
ここでは、エンティティの誕生年などの数値プロパティの表現を検索および編集するための簡単な方法を紹介します。
経験的に、数値プロパティを解釈可能かつ編集可能な方法で単調にエンコードする低次元の部分空間が見つかります。
これらの部分空間内の方向に沿ってリプレゼンテーションを編集すると、それに応じて LM 出力が変化します。
たとえば、「誕生年」の方向に沿ってアクティベーションをパッチすることによって、LM にますます遅い誕生年を表現させることができます。カール・ポッパーは 1929 年生まれ、カール・ポッパーは 1957 年生まれ、カール・ポッパーは 1968 年生まれです。プロパティエンコーディングの方向は、複数の方向に存在します。
検討中のすべてのモデルにいくつかの数値プロパティが含まれており、数値プロパティの単調表現が LM の事前学習中に一貫して出現する可能性を示唆しています。
コード: https://github.com/bheinzerling/numeric-property-repr

要約(オリジナル)

Language models (LMs) can express factual knowledge involving numeric properties such as Karl Popper was born in 1902. However, how this information is encoded in the model’s internal representations is not understood well. Here, we introduce a simple method for finding and editing representations of numeric properties such as an entity’s birth year. Empirically, we find low-dimensional subspaces that encode numeric properties monotonically, in an interpretable and editable fashion. When editing representations along directions in these subspaces, LM output changes accordingly. For example, by patching activations along a ‘birthyear’ direction we can make the LM express an increasingly late birthyear: Karl Popper was born in 1929, Karl Popper was born in 1957, Karl Popper was born in 1968. Property-encoding directions exist across several numeric properties in all models under consideration, suggesting the possibility that monotonic representation of numeric properties consistently emerges during LM pretraining. Code: https://github.com/bheinzerling/numeric-property-repr

arxiv情報

著者 Benjamin Heinzerling,Kentaro Inui
発行日 2024-03-15 15:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク