Looking Inward: Language Models Can Learn About Themselves by Introspection

要約

人間は外界を観察することによって知識を獲得しますが、内省によっても知識を獲得します。
内省は、外部の観察者にはアクセスできない現在の心の状態(思考や感情など)への特権的なアクセスを人に与えます。
LLM はイントロスペクションを行うことができますか?
私たちは、内省を、トレーニング データに含まれていない、またはトレーニング データから派生したのではなく、内部状態に由来する知識を獲得することと定義します。
このような機能により、モデルの解釈可能性が向上する可能性があります。
モデルの内部動作を丹念に分析する代わりに、モデルの信念、世界モデル、目標について単純にモデルに尋ねることもできます。
より推測的には、内省的モデルは、主観的な感情や欲望などの特定の内部状態を持っているかどうかを自己報告する可能性があり、これにより、これらの状態の道徳的状態についての情報が得られる可能性があります。
このような自己報告は、モデルのトレーニング データによって完全に決定されるわけではありません。
私たちは、仮説的なシナリオにおける LLM 自身の動作の特性を予測するために LLM を微調整することによって内省を研究します。
たとえば、「入力 P を考慮すると、出力は短期オプションと長期オプションのどちらを優先しますか?」
モデル M1 がイントロスペクトできる場合、M2 が M1 のグラウンドトゥルースの動作に基づいてトレーニングされている場合でも、モデル M1 は M1 の動作を予測する際に別のモデル M2 よりも優れた性能を発揮するはずです。
この考えは、M1 が自身の行動傾向に特権的にアクセスできるため、M2 よりも自身をより正確に予測できるようにするというものです (一般的に M2 の方が強い場合でも)。
GPT-4、GPT-4o、および Llama-3 モデル (それぞれ自身を予測するように微調整されている) を用いた実験では、モデル M1 が自身を予測する点で M2 よりも優れており、内省の証拠が得られることがわかりました。
特に、M1 は、グラウンド トゥルースの動作を意図的に変更した後でも、その動作を正確に予測し続けます。
ただし、単純なタスクでは内省を引き出すことに成功しましたが、より複雑なタスクや分布外の一般化が必要なタスクでは成功しませんでした。

要約(オリジナル)

Humans acquire knowledge by observing the external world, but also by introspection. Introspection gives a person privileged access to their current state of mind (e.g., thoughts and feelings) that is not accessible to external observers. Can LLMs introspect? We define introspection as acquiring knowledge that is not contained in or derived from training data but instead originates from internal states. Such a capability could enhance model interpretability. Instead of painstakingly analyzing a model’s internal workings, we could simply ask the model about its beliefs, world models, and goals. More speculatively, an introspective model might self-report on whether it possesses certain internal states such as subjective feelings or desires and this could inform us about the moral status of these states. Such self-reports would not be entirely dictated by the model’s training data. We study introspection by finetuning LLMs to predict properties of their own behavior in hypothetical scenarios. For example, ‘Given the input P, would your output favor the short- or long-term option?’ If a model M1 can introspect, it should outperform a different model M2 in predicting M1’s behavior even if M2 is trained on M1’s ground-truth behavior. The idea is that M1 has privileged access to its own behavioral tendencies, and this enables it to predict itself better than M2 (even if M2 is generally stronger). In experiments with GPT-4, GPT-4o, and Llama-3 models (each finetuned to predict itself), we find that the model M1 outperforms M2 in predicting itself, providing evidence for introspection. Notably, M1 continues to predict its behavior accurately even after we intentionally modify its ground-truth behavior. However, while we successfully elicit introspection on simple tasks, we are unsuccessful on more complex tasks or those requiring out-of-distribution generalization.

arxiv情報

著者 Felix J Binder,James Chua,Tomek Korbak,Henry Sleight,John Hughes,Robert Long,Ethan Perez,Miles Turpin,Owain Evans
発行日 2024-10-17 17:24:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク