Looking Inward: Language Models Can Learn About Themselves by Introspection


LLM はイントロスペクションを行うことができますか?
私たちは、内省を、トレーニング データに含まれていない、またはトレーニング データから派生したのではなく、内部状態に由来する知識を獲得することと定義します。
このような自己報告は、モデルのトレーニング データによって完全に決定されるわけではありません。
私たちは、仮説的なシナリオにおける LLM 自身の動作の特性を予測するために LLM を微調整することによって内省を研究します。
たとえば、「入力 P を考慮すると、出力は短期オプションと長期オプションのどちらを優先しますか?」
モデル M1 がイントロスペクトできる場合、M2 が M1 のグラウンドトゥルースの動作に基づいてトレーニングされている場合でも、モデル M1 は M1 の動作を予測する際に別のモデル M2 よりも優れた性能を発揮するはずです。
この考えは、M1 が自身の行動傾向に特権的にアクセスできるため、M2 よりも自身をより正確に予測できるようにするというものです (一般的に M2 の方が強い場合でも)。
GPT-4、GPT-4o、および Llama-3 モデル (それぞれ自身を予測するように微調整されている) を用いた実験では、モデル M1 が自身を予測する点で M2 よりも優れており、内省の証拠が得られることがわかりました。
特に、M1 は、グラウンド トゥルースの動作を意図的に変更した後でも、その動作を正確に予測し続けます。


Humans acquire knowledge by observing the external world, but also by introspection. Introspection gives a person privileged access to their current state of mind (e.g., thoughts and feelings) that is not accessible to external observers. Can LLMs introspect? We define introspection as acquiring knowledge that is not contained in or derived from training data but instead originates from internal states. Such a capability could enhance model interpretability. Instead of painstakingly analyzing a model’s internal workings, we could simply ask the model about its beliefs, world models, and goals. More speculatively, an introspective model might self-report on whether it possesses certain internal states such as subjective feelings or desires and this could inform us about the moral status of these states. Such self-reports would not be entirely dictated by the model’s training data. We study introspection by finetuning LLMs to predict properties of their own behavior in hypothetical scenarios. For example, ‘Given the input P, would your output favor the short- or long-term option?’ If a model M1 can introspect, it should outperform a different model M2 in predicting M1’s behavior even if M2 is trained on M1’s ground-truth behavior. The idea is that M1 has privileged access to its own behavioral tendencies, and this enables it to predict itself better than M2 (even if M2 is generally stronger). In experiments with GPT-4, GPT-4o, and Llama-3 models (each finetuned to predict itself), we find that the model M1 outperforms M2 in predicting itself, providing evidence for introspection. Notably, M1 continues to predict its behavior accurately even after we intentionally modify its ground-truth behavior. However, while we successfully elicit introspection on simple tasks, we are unsuccessful on more complex tasks or those requiring out-of-distribution generalization.


著者 Felix J Binder,James Chua,Tomek Korbak,Henry Sleight,John Hughes,Robert Long,Ethan Perez,Miles Turpin,Owain Evans
発行日 2024-10-17 17:24:10+00:00
