Extractive Structures Learned in Pretraining Enable Generalization on Finetuned Facts

要約

事前トレーニングされた言語モデル (LM) は、微調整された事実の意味を一般化できます。
たとえば、「ジョン・ドゥは東京に住んでいます」について細かく調整すると、LMは「ジョン・ドゥの街の人々は何語を話しますか?」に「日本語」と正しく答えることができます。
ただし、この一般化を可能にするメカニズムや、事前トレーニング中にそれらがどのように学習されるかについてはほとんど知られていません。
我々は、LM 内のコンポーネント (MLP やアテンション ヘッドなど) がどのように連携してこの一般化を可能にするかを説明するためのフレームワークとして抽出構造を導入します。
この構造は、重みの変化としてトレーニング ファクトを保存する情報コンポーネントと、保存された情報をクエリして処理して正しい意味を生成する上流および下流の抽出コンポーネントで構成されます。
私たちは、事前トレーニング中に既知の事実の含意に遭遇したときに抽出構造が学習されると仮説を立てます。
これにより、2 つの予測が得られます。1 つは、事実がその含意に先行する場合にのみ抽出構造を学習できるデータ順序付け効果、もう 1 つは抽出構造を転送して反事実の含意を予測できる重みグラフティング効果です。
我々は、OLMo-7b、Llama 3-8b、Gemma 2-9b、および Qwen 2-7b モデルでこれらの現象を経験的に実証します。
独立した興味深い点として、私たちの結果は、事実学習が初期層と後期層の両方で発生し、さまざまな形の一般化につながる可能性があることも示しています。

要約(オリジナル)

Pretrained language models (LMs) can generalize to implications of facts that they are finetuned on. For example, if finetuned on “John Doe lives in Tokyo,’ LMs can correctly answer “What language do the people in John Doe’s city speak?” with “Japanese”. However, little is known about the mechanisms that enable this generalization or how they are learned during pretraining. We introduce extractive structures as a framework for describing how components in LMs (e.g., MLPs or attention heads) coordinate to enable this generalization. The structures consist of informative components that store training facts as weight changes, and upstream and downstream extractive components that query and process the stored information to produce the correct implication. We hypothesize that extractive structures are learned during pretraining when encountering implications of previously known facts. This yields two predictions: a data ordering effect where extractive structures can be learned only if facts precede their implications, and a weight grafting effect where extractive structures can be transferred to predict counterfactual implications. We empirically demonstrate these phenomena in the OLMo-7b, Llama 3-8b, Gemma 2-9b, and Qwen 2-7b models. Of independent interest, our results also indicate that fact learning can occur at both early and late layers, which lead to different forms of generalization.

arxiv情報

著者 Jiahai Feng,Stuart Russell,Jacob Steinhardt
発行日 2025-01-10 08:07:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク