On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models

要約

大規模言語モデル (LLM) がヘルスケアなどの重要な領域の実世界のアプリケーションで採用されることが増えているため、これらのモデルによって生成される思考連鎖 (CoT) 推論がその根底にある動作を忠実に捉えていることを確認することが重要です。
LLM は人間にとって魅力的な CoT 推論を生成することが知られていますが、先行研究では、これらの説明が基礎となる LLM の実際の動作を正確に反映していないことが示されています。
この研究では、LLM によって生成される CoT 推論の忠実性を高めるために LLM の動作を制御するために一般的に使用される 3 つの広範なアプローチ、つまりコンテキスト内学習、微調整、およびアクティベーション編集の可能性を探ります。
具体的には、CoT推論の忠実性を向上させることを目的とした、コンテキスト内学習、微調整、およびアクティベーション編集のための新しい戦略を紹介します。
次に、複数のベンチマーク データセットを使用して広範な実証分析を実行し、これらの戦略の可能性を探ります。
私たちの分析によると、これらの戦略は CoT 推論の忠実性の向上に限定的な成功を収めており、制御されたシナリオでのパフォーマンスの向上はわずかしかありません。
アクティベーション編集は最小限の成功を示しましたが、微調整とコンテキスト内学習はわずかな改善を達成しましたが、多様な推論と真実の質問応答ベンチマーク全体で一般化することはできませんでした。
要約すると、私たちの研究は、LLM から忠実な CoT 推論を引き出すことが本質的に難しいことを強調しており、現在の一連のアプローチではこの複雑な課題に対処するのに十分ではない可能性があることを示唆しています。

要約(オリジナル)

As Large Language Models (LLMs) are increasingly being employed in real-world applications in critical domains such as healthcare, it is important to ensure that the Chain-of-Thought (CoT) reasoning generated by these models faithfully captures their underlying behavior. While LLMs are known to generate CoT reasoning that is appealing to humans, prior studies have shown that these explanations do not accurately reflect the actual behavior of the underlying LLMs. In this work, we explore the promise of three broad approaches commonly employed to steer the behavior of LLMs to enhance the faithfulness of the CoT reasoning generated by LLMs: in-context learning, fine-tuning, and activation editing. Specifically, we introduce novel strategies for in-context learning, fine-tuning, and activation editing aimed at improving the faithfulness of the CoT reasoning. We then carry out extensive empirical analyses with multiple benchmark datasets to explore the promise of these strategies. Our analyses indicate that these strategies offer limited success in improving the faithfulness of the CoT reasoning, with only slight performance enhancements in controlled scenarios. Activation editing demonstrated minimal success, while fine-tuning and in-context learning achieved marginal improvements that failed to generalize across diverse reasoning and truthful question-answering benchmarks. In summary, our work underscores the inherent difficulty in eliciting faithful CoT reasoning from LLMs, suggesting that the current array of approaches may not be sufficient to address this complex challenge.

arxiv情報

著者 Sree Harsha Tanneru,Dan Ley,Chirag Agarwal,Himabindu Lakkaraju
発行日 2024-07-01 13:36:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク