要約
トランスフォーマーはさまざまなタスクにわたって優れた能力を実証してきましたが、構成上の問題におけるパフォーマンスについては依然として議論の対象となっています。
この研究では、作曲タスクにおけるトランスフォーマーの動作の基礎となる内部メカニズムを調査します。
複雑さの制御戦略は、モデルが分布外を一般化する原始レベルのルールを学習するか (推論ベースの解決策)、それとも記憶されたマッピングのみに依存するか (メモリベースの解決策) に大きく影響することがわかりました。
モデルの情報回路にマスキング戦略を適用し、複数の複雑さのメトリクスを採用することで、さまざまなソリューション タイプに関連付けられた明確な内部動作メカニズムを明らかにします。
さらなる分析により、推論ベースのソリューションは複雑さのバイアスが低いことが明らかになり、これはよく研究されているニューロンの凝縮現象と一致しています。
この複雑さの低いバイアスが、これらのソリューションが推論ルールを学習できるようにする重要な要素であると仮説が立てられています。
私たちはこれらの結論を、画像生成や自然言語処理タスクを含む複数の実世界のデータセットにわたって検証し、私たちの発見の広範な適用可能性を確認します。
要約(オリジナル)
Transformers have demonstrated impressive capabilities across various tasks, yet their performance on compositional problems remains a subject of debate. In this study, we investigate the internal mechanisms underlying Transformers’ behavior in compositional tasks. We find that complexity control strategies significantly influence whether the model learns primitive-level rules that generalize out-of-distribution (reasoning-based solutions) or relies solely on memorized mappings (memory-based solutions). By applying masking strategies to the model’s information circuits and employing multiple complexity metrics, we reveal distinct internal working mechanisms associated with different solution types. Further analysis reveals that reasoning-based solutions exhibit a lower complexity bias, which aligns with the well-studied neuron condensation phenomenon. This lower complexity bias is hypothesized to be the key factor enabling these solutions to learn reasoning rules. We validate these conclusions across multiple real-world datasets, including image generation and natural language processing tasks, confirming the broad applicability of our findings.
arxiv情報
著者 | Zhongwang Zhang,Pengxiao Lin,Zhiwei Wang,Yaoyu Zhang,Zhi-Qin John Xu |
発行日 | 2025-01-15 02:54:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google