Faithfulness of LLM Self-Explanations for Commonsense Tasks: Larger Is Better, and Instruction-Tuning Allows Trade-Offs but Not Pareto Dominance

要約

大規模な言語モデル(LLM)がますます有能になるにつれて、自己生成された説明が内部の意思決定プロセスに忠実であることを保証することが、安全と監視に重要です。
この作業では、8つの家族の62のモデルで包括的な反事実的忠実な分析を実施し、前提条件と命令チューニングされたバリアントの両方を網羅し、反事実検査の以前の研究を大幅に拡張します。
相関反事実検定の単純化されたバリアントであるPHI-CCTを導入します。これは、元のテストのほとんどの分散を説明しながらトークン確率の必要性を回避します。
私たちの調査結果は、明確なスケーリングの傾向を明らかにしています。より大きなモデルは、私たちのメトリックに対して一貫してより忠実です。
ただし、命令と想像の説明を比較すると、観察された忠実さの違いは、しばしば説明の冗長に起因する可能性があり、真の陽性/偽陽性のパレートフロンティアに沿ったシフトにつながることがわかります。
命令調整とプロンプトはこのトレードオフに影響を与える可能性がありますが、同等のサイズの前提条件で達成可能なものを超えて、説明的な忠実さのフロンティアを根本的に拡大するという限られた証拠を見つけます。
私たちの分析は、モデル決定プロセスの命令調整、冗長性、および忠実な表現の間の微妙な関係を強調しています。

要約(オリジナル)

As large language models (LLMs) become increasingly capable, ensuring that their self-generated explanations are faithful to their internal decision-making process is critical for safety and oversight. In this work, we conduct a comprehensive counterfactual faithfulness analysis across 62 models from 8 families, encompassing both pretrained and instruction-tuned variants and significantly extending prior studies of counterfactual tests. We introduce phi-CCT, a simplified variant of the Correlational Counterfactual Test, which avoids the need for token probabilities while explaining most of the variance of the original test. Our findings reveal clear scaling trends: larger models are consistently more faithful on our metrics. However, when comparing instruction-tuned and human-imitated explanations, we find that observed differences in faithfulness can often be attributed to explanation verbosity, leading to shifts along the true-positive/false-positive Pareto frontier. While instruction-tuning and prompting can influence this trade-off, we find limited evidence that they fundamentally expand the frontier of explanatory faithfulness beyond what is achievable with pretrained models of comparable size. Our analysis highlights the nuanced relationship between instruction-tuning, verbosity, and the faithful representation of model decision processes.

arxiv情報

著者 Noah Y. Siegel,Nicolas Heess,Maria Perez-Ortiz,Oana-Maria Camburu
発行日 2025-03-17 17:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク