Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning

要約

大規模言語モデル (LLM) は、質問に答える前に段階的に推論するよう求められた場合に、パフォーマンスが向上することが示されています。
ただし、モデルの最終的な答えが、記載されている推論手順にどの程度忠実であるかは不明です。
この論文では、12 個の LLM に対して因果媒介分析を実行し、LLM によって生成された中間推論ステップが最終結果にどのような影響を与えるかを調べ、LLM が答えを生成するときに中間推論ステップを確実に使用していないことを発見しました。
この問題に対処するために、小規模な LM を調整して正しい推論ステップを生成し、これらのステップを堅牢に推論するフレームワークである FRODO を導入します。
FRODO は、暗黙的な因果報酬関数を使用して正しい推論ステップを生成することを学習する推論モジュールと、反事実と因果の選好目標を使用してこれらの中間推論を忠実に推論することを学習する推論モジュールで構成されます。
私たちの実験では、FRODO が 4 つの競合ベースラインを大幅に上回るパフォーマンスを示しています。
さらに、FRODO は推論 LM の堅牢性と汎化能力を向上させ、配布外のテスト セットでより高いパフォーマンスをもたらします。
最後に、FRODO の理論的根拠は、標準的な教師あり微調整よりも最終的な答えの予測に忠実であることがわかりました。

要約(オリジナル)

Large language models (LLMs) have been shown to perform better when asked to reason step-by-step before answering a question. However, it is unclear to what degree the model’s final answer is faithful to the stated reasoning steps. In this paper, we perform a causal mediation analysis on twelve LLMs to examine how intermediate reasoning steps generated by the LLM influence the final outcome and find that LLMs do not reliably use their intermediate reasoning steps when generating an answer. To address this issue, we introduce FRODO, a framework to tailor small-sized LMs to generate correct reasoning steps and robustly reason over these steps. FRODO consists of an inference module that learns to generate correct reasoning steps using an implicit causal reward function and a reasoning module that learns to faithfully reason over these intermediate inferences using a counterfactual and causal preference objective. Our experiments show that FRODO significantly outperforms four competitive baselines. Furthermore, FRODO improves the robustness and generalization ability of the reasoning LM, yielding higher performance on out-of-distribution test sets. Finally, we find that FRODO’s rationales are more faithful to its final answer predictions than standard supervised fine-tuning.

arxiv情報

著者 Debjit Paul,Robert West,Antoine Bosselut,Boi Faltings
発行日 2024-02-21 17:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク