RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought

要約

大規模言語モデル (LLM) は、段階的な思考連鎖 (CoT) プロンプトを組み込むことにより、算術推論タスクで有望なパフォーマンスを達成しました。
しかし、LLM は推論中に事実の一貫性を維持するという課題に直面しており、与えられた問題に対して条件の見落とし、質問の誤解、条件の幻覚を起こす傾向があります。
既存の方法では、事実の一貫性を向上させるために、粗粒度のフィードバック (答えが正しいかどうかなど) が使用されます。
この研究では、LLM で生成された解決策の事実の不一致を自動的に検出して修正することにより、LLM の推論能力を向上させる新しい方法である RCoT (Reversing Chain-of-Thought) を提案します。
事実の不一致を検出するために、RCoT はまず LLM に、生成された解決策に基づいて問題を再構築するように依頼します。
次に、元の問題と再構成された問題を詳細に比較することで、元の解決策の事実の不一致が明らかになります。
解決策を修正するために、RCoT は検出された事実の不一致を詳細なフィードバックに定式化し、LLM が解決策を修正するように導きます。
実験結果は、7 つの算術データセットにわたる標準 CoT に対する RCoT、自己一貫性、および自己洗練の改善を示しています。
さらに、手動で書かれたきめの細かいフィードバックは LLM の推論能力を劇的に向上させることができることを発見し (たとえば、ChatGPT は GSM8K で 94.6% の精度に達します)、コミュニティがきめの細かいフィードバック生成方法をさらに探索することを奨励します。

要約(オリジナル)

Large language Models (LLMs) have achieved promising performance on arithmetic reasoning tasks by incorporating step-by-step chain-of-thought (CoT) prompting. However, LLMs face challenges in maintaining factual consistency during reasoning, exhibiting tendencies to condition overlooking, question misinterpretation, and condition hallucination over given problems. Existing methods use coarse-grained feedback (e.g., whether the answer is correct) to improve factual consistency. In this work, we propose RCoT (Reversing Chain-of-Thought), a novel method to improve LLMs’ reasoning abilities by automatically detecting and rectifying factual inconsistency in LLMs, generated solutions. To detect factual inconsistency, RCoT first asks LLMs to reconstruct the problem based on generated solutions. Then fine-grained comparisons between the original problem and the reconstructed problem expose the factual inconsistency in the original solutions. To rectify the solution, RCoT formulates detected factual inconsistency into fine-grained feedback to guide LLMs in revising solutions. Experimental results demonstrate improvements of RCoT over standard CoT, Self-Consistency and Self-Refine across seven arithmetic datasets. Moreover, we find that manually written fine-grained feedback can dramatically improve LLMs’ reasoning abilities (e.g., ChatGPT reaches 94.6% accuracy on GSM8K), encouraging the community to further explore the fine-grained feedback generation methods.

arxiv情報

著者 Tianci Xue,Ziqi Wang,Zhenhailong Wang,Chi Han,Pengfei Yu,Heng Ji
発行日 2023-10-02 03:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク