The Compositional Architecture of Regret in Large Language Models

要約

大規模な言語モデルでの後悔とは、以前に生成された誤った情報と矛盾する証拠が提示された場合の明示的な後悔の表現を指します。
後悔のメカニズムを研究することは、モデルの信頼性を高めるために重要であり、ニューラルネットワークで認知がどのようにコーディングされるかを明らかにするのに役立ちます。
このメカニズムを理解するには、まずモデル出力の後悔式を特定し、その内部表現を分析する必要があります。
この分析では、ニューロンレベルで情報処理が発生するモデルの隠された状態を調べる必要があります。
ただし、これは3つの重要な課題に直面しています。(1)後悔の表現をキャプチャする専門データセットの欠如、(2)最適な後悔の表現層を見つけるためのメトリックの欠如、および(3)後悔ニューロンを識別および分析するためのメトリックの欠如。
これらの制限に対処すると、(1)戦略的に設計されたプロンプトシナリオを介して包括的な後悔データセットを構築するためのワークフロー、(2)監視された圧縮分解インデックス(S-CDI)メトリックを識別して最適な後悔の表現層を識別し、(3)後悔の支配スコア(RDS)メトリックを識別するための後悔の影響を特定する(RDS)。
実験結果は、S-CDIメトリックを使用して最適な後悔表現層を正常に特定し、プローブ分類実験のパフォーマンスを大幅に向上させました。
さらに、モデルレイヤー全体にM字型のデカップリングパターンを発見し、カップリングとデカップリングフェーズの間で情報処理がどのように交互になるかを明らかにしました。
RDSメトリックを介して、ニューロンを3つの異なる官能グループに分類しました:後悔ニューロン、非レグレットニューロン、およびデュアルニューロン。

要約(オリジナル)

Regret in Large Language Models refers to their explicit regret expression when presented with evidence contradicting their previously generated misinformation. Studying the regret mechanism is crucial for enhancing model reliability and helps in revealing how cognition is coded in neural networks. To understand this mechanism, we need to first identify regret expressions in model outputs, then analyze their internal representation. This analysis requires examining the model’s hidden states, where information processing occurs at the neuron level. However, this faces three key challenges: (1) the absence of specialized datasets capturing regret expressions, (2) the lack of metrics to find the optimal regret representation layer, and (3) the lack of metrics for identifying and analyzing regret neurons. Addressing these limitations, we propose: (1) a workflow for constructing a comprehensive regret dataset through strategically designed prompting scenarios, (2) the Supervised Compression-Decoupling Index (S-CDI) metric to identify optimal regret representation layers, and (3) the Regret Dominance Score (RDS) metric to identify regret neurons and the Group Impact Coefficient (GIC) to analyze activation patterns. Our experimental results successfully identified the optimal regret representation layer using the S-CDI metric, which significantly enhanced performance in probe classification experiments. Additionally, we discovered an M-shaped decoupling pattern across model layers, revealing how information processing alternates between coupling and decoupling phases. Through the RDS metric, we categorized neurons into three distinct functional groups: regret neurons, non-regret neurons, and dual neurons.

arxiv情報

著者 Xiangxiang Cui,Shu Yang,Tianjin Huang,Wanyu Lin,Lijie Hu,Di Wang
発行日 2025-06-18 16:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク