Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity Tracking

要約

命令追従、コード生成、数学などの一般化されたタスクを微調整すると、さまざまなタスクにおける言語モデルのパフォーマンスが向上することが示されています。
それにもかかわらず、そのような微調整がこれらのモデルの内部計算にどのような影響を与えるかについては、依然として解明されていません。
私たちは、微調整が言語モデルに実装された内部メカニズムにどのような影響を与えるかを研究します。
ケーススタディとして、言語理解の重要な側面であるエンティティ追跡の特性を調査します。この特性では、数学に基づいて微調整されたモデルにより大幅なパフォーマンス向上が見られます。
エンティティ追跡を可能にするメカニズムを特定し、(i) 元のモデルとその微調整バージョンの両方で、主に同じ回路がエンティティ追跡を実装していることを示します。
実際、微調整バージョンのオリジナル モデルのエンティティ追跡回路は、完全なオリジナル モデルよりも優れたパフォーマンスを発揮します。
(ii) すべてのモデルの回路は、ほぼ同じ機能を実装します。エンティティの追跡は、元のモデルとその微調整バージョンの両方で正しいエンティティの位置を追跡することによって実行されます。
(iii) 微調整モデルのパフォーマンス向上は、主に、拡張された位置情報を処理する能力の向上によるものです。
これらの発見を明らかにするために、特定のセマンティクスを担当するモデル コンポーネントを自動的に検出するパッチ パッチ適用 (DCM)、および改善されたメカニズムを明らかにするためにモデル全体でアクティブ化にパッチを適用するための新しいアプローチである CMAP を採用します。
私たちの調査結果は、微調整によってモデルの機構的な動作が根本的に変更されるのではなく、強化されることが示唆されています。

要約(オリジナル)

Fine-tuning on generalized tasks such as instruction following, code generation, and mathematics has been shown to enhance language models’ performance on a range of tasks. Nevertheless, explanations of how such fine-tuning influences the internal computations in these models remain elusive. We study how fine-tuning affects the internal mechanisms implemented in language models. As a case study, we explore the property of entity tracking, a crucial facet of language comprehension, where models fine-tuned on mathematics have substantial performance gains. We identify the mechanism that enables entity tracking and show that (i) in both the original model and its fine-tuned versions primarily the same circuit implements entity tracking. In fact, the entity tracking circuit of the original model on the fine-tuned versions performs better than the full original model. (ii) The circuits of all the models implement roughly the same functionality: Entity tracking is performed by tracking the position of the correct entity in both the original model and its fine-tuned versions. (iii) Performance boost in the fine-tuned models is primarily attributed to its improved ability to handle the augmented positional information. To uncover these findings, we employ: Patch Patching, DCM, which automatically detects model components responsible for specific semantics, and CMAP, a new approach for patching activations across models to reveal improved mechanisms. Our findings suggest that fine-tuning enhances, rather than fundamentally alters, the mechanistic operation of the model.

arxiv情報

著者 Nikhil Prakash,Tamar Rott Shaham,Tal Haklay,Yonatan Belinkov,David Bau
発行日 2024-02-22 18:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク