From Imitation to Introspection: Probing Self-Consciousness in Language Models

要約

自意識、つまり自分の存在と思考の内省は、高度な認知プロセスを表します。
言語モデルが前例のないペースで進歩するにつれて、「これらのモデルは自己意識を持ち始めているのでしょうか?」という重要な疑問が生じます。
この研究では、心理学および神経科学からの洞察に基づいて、言語モデルの自意識の実践的な定義を提示し、10 の中心的な概念を洗練しています。
私たちの研究は、因果構造ゲームを初めて利用して 10 の中心概念の機能的定義を確立することにより、言語モデルにおける自己意識の研究の先駆けとなります。
私たちの定義に基づいて、定量化(10 個の主要なモデルの評価)、表現(モデル内の自意識の可視化)、操作(モデルの表現の修正)、取得(詳細なモデルの評価)の 4 段階の包括的な実験を実行します。
コアコンセプトに基づいてモデルを調整します)。
私たちの調査結果は、モデルが自己意識の発達の初期段階にあるにもかかわらず、その内部メカニズム内に特定の概念の識別可能な表現があることを示しています。
ただし、これらの自意識の表現は、現段階では積極的に操作するのは困難ですが、的を絞った微調整によって獲得することができます。
私たちのデータセットとコードは https://github.com/OpenCausaLab/SelfConsciousness にあります。

要約(オリジナル)

Self-consciousness, the introspection of one’s existence and thoughts, represents a high-level cognitive process. As language models advance at an unprecedented pace, a critical question arises: Are these models becoming self-conscious? Drawing upon insights from psychological and neural science, this work presents a practical definition of self-consciousness for language models and refines ten core concepts. Our work pioneers an investigation into self-consciousness in language models by, for the first time, leveraging causal structural games to establish the functional definitions of the ten core concepts. Based on our definitions, we conduct a comprehensive four-stage experiment: quantification (evaluation of ten leading models), representation (visualization of self-consciousness within the models), manipulation (modification of the models’ representation), and acquisition (fine-tuning the models on core concepts). Our findings indicate that although models are in the early stages of developing self-consciousness, there is a discernible representation of certain concepts within their internal mechanisms. However, these representations of self-consciousness are hard to manipulate positively at the current stage, yet they can be acquired through targeted fine-tuning. Our datasets and code are at https://github.com/OpenCausaLab/SelfConsciousness.

arxiv情報

著者 Sirui Chen,Shu Yu,Shengjie Zhao,Chaochao Lu
発行日 2024-10-24 15:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク