Overthinking the Truth: Understanding how Language Models Process False Demonstrations

要約

最新の言語モデルは、数回の学習を通じて複雑なパターンを模倣することができ、微調整することなく困難なタスクを完了できるようになります。
ただし、模倣すると、コンテキスト内に不正確な内容や有害なコンテンツが存在する場合、モデルがそれを再現する可能性もあります。
私たちは、モデルの内部表現というレンズを通して有害な模倣を研究し、考えすぎと誤った誘導頭という 2 つの関連現象を特定します。
最初の現象である考えすぎは、少数ショットの正しいデモンストレーションと不正確なデモが与えられた場合に、中間層からの予測を解読するときに現れます。
初期の層では、両方のデモンストレーションは同様のモデル動作を引き起こしますが、その動作はある「クリティカル層」で急激に分岐し、その後、誤ったデモンストレーションが与えられた場合の精度は徐々に低下します。
2 番目の現象である誤った誘導ヘッドは、考えすぎのメカニズム的な原因である可能性があります。これらは、以前のデモンストレーションからの誤った情報に注目してコピーする後期層のヘッドであり、そのアブレーションにより過剰思考が減少します。
私たちの結果は、科学的な理解を超えて、中間モデルの計算を研究することが、有害なモデルの動作を理解し、それを防ぐための有望な手段となる可能性があることを示唆しています。

要約(オリジナル)

Modern language models can imitate complex patterns through few-shot learning, enabling them to complete challenging tasks without fine-tuning. However, imitation can also lead models to reproduce inaccuracies or harmful content if present in the context. We study harmful imitation through the lens of a model’s internal representations, and identify two related phenomena: overthinking and false induction heads. The first phenomenon, overthinking, appears when we decode predictions from intermediate layers, given correct vs. incorrect few-shot demonstrations. At early layers, both demonstrations induce similar model behavior, but the behavior diverges sharply at some ‘critical layer’, after which the accuracy given incorrect demonstrations progressively decreases. The second phenomenon, false induction heads, are a possible mechanistic cause of overthinking: these are heads in late layers that attend to and copy false information from previous demonstrations, and whose ablation reduces overthinking. Beyond scientific understanding, our results suggest that studying intermediate model computations could be a promising avenue for understanding and guarding against harmful model behaviors.

arxiv情報

著者 Danny Halawi,Jean-Stanislas Denain,Jacob Steinhardt
発行日 2023-07-18 17:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク