Chain-of-Thought Unfaithfulness as Disguised Accuracy

要約

思考連鎖 (CoT) の生成が大規模言語モデル (LLM) の内部計算とどの程度一致するかを理解することは、LLM の出力を信頼するかどうかを決定するために重要です。
CoT の忠実さの代理として、Lanham ら。
(2023) 答えを生成するためのモデルの CoT への依存性を測定する指標を提案しています。
彼らは、独自のモデルの単一ファミリー内で、LLM がモデルのサイズと忠実度の尺度との間にスケーリング、その後逆スケーリングの関係を示し、130 億パラメータのモデルは 8 億 1,000 万から 175 億の範囲のモデルと比較して忠実性が向上していることを発見しました。
パラメータのサイズは 10 億。
これらの結果がすべての LLM の特性として一般化されるかどうかを評価します。
3 つの異なるモデルファミリーを使用したスケーリング実験に焦点を当てたセクションの実験セットアップを再現し、特定の条件下で、報告されている CoT 忠実度のスケーリング傾向を首尾よく再現します。
ただし、特定の回答選択肢に対するモデルの偏りを考慮してメトリクスを正規化すると、能力の低い小規模なモデルでは不忠実度が大幅に低下します。
この正規化された忠実度指標は精度と強い相関 ($R^2$=0.74) があり、忠実度を評価するためのその妥当性について疑問が生じます。

要約(オリジナル)

Understanding the extent to which Chain-of-Thought (CoT) generations align with a large language model’s (LLM) internal computations is critical for deciding whether to trust an LLM’s output. As a proxy for CoT faithfulness, Lanham et al. (2023) propose a metric that measures a model’s dependence on its CoT for producing an answer. Within a single family of proprietary models, they find that LLMs exhibit a scaling-then-inverse-scaling relationship between model size and their measure of faithfulness, and that a 13 billion parameter model exhibits increased faithfulness compared to models ranging from 810 million to 175 billion parameters in size. We evaluate whether these results generalize as a property of all LLMs. We replicate the experimental setup in their section focused on scaling experiments with three different families of models and, under specific conditions, successfully reproduce the scaling trends for CoT faithfulness they report. However, after normalizing the metric to account for a model’s bias toward certain answer choices, unfaithfulness drops significantly for smaller less-capable models. This normalized faithfulness metric is also strongly correlated ($R^2$=0.74) with accuracy, raising doubts about its validity for evaluating faithfulness.

arxiv情報

著者 Oliver Bentham,Nathan Stringham,Ana Marasović
発行日 2024-06-21 13:39:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク