Can LLMs Learn from Previous Mistakes? Investigating LLMs’ Errors to Boost for Reasoning

要約

最近の研究では、黄金標準の思考連鎖 (CoT) 理論的根拠を微調整したり、数回のプロンプトで正しい例として使用したりすることによって、LLM にメリットがあることが示されています。
確かに人間は正しい例を模倣することはできますが、間違いから学ぶことも人間の認識の重要な側面です。
したがって、当然次のような疑問が生じます: \textit{LLM は、特にその推論において、間違いから学び、利益を得ることができますか?
この研究では、プロンプトとモデル調整の両方の観点からこの問題を調査します。
まず、609,432 個の質問を含む新しいベンチマークである \textsc{CoTErrorSet} を紹介します。各質問は正解と間違いの両方の参照を使用して設計されており、そのような間違いの種類と理由を示します。
これらの間違いの有効性を調査するために、私たちは 2 つの方法を設計しました: (1) \textbf{自己再考} のプロンプトは、LLM が以前に同様の間違いを犯したかどうかを再考するように導きます。
(2) \textbf{間違い調整} には、従来の方法論でグラウンド トゥルースを学習するためにモデルを調整するだけではなく、正しい推論領域と誤った推論領域の両方でモデルを微調整することが含まれます。
私たちは、LLM が双方向の間違いから利益を得られることを証明するために一連の実験を実施します。
私たちの 2 つの方法は、エラーを活用して推論能力を強化することにより、潜在的にコスト効率の高い戦略を提供します。これは、細心の注意を払って手作りされたゴールデンリファレンスを作成するよりもコストが大幅に低くなります。
私たちは最終的に、LLM のエラーの背後にある理由を徹底的に分析し、将来の研究が克服する必要がある方向性を提供します。
\textsc{CoTErrorSet} は \texttt{匿名リンク} で間もなく公開されます。

要約(オリジナル)

Recent works have shown the benefits to LLMs from fine-tuning golden-standard Chain-of-Thought (CoT) rationales or using them as correct examples in few-shot prompting. While humans can indeed imitate correct examples, learning from our mistakes is another vital aspect of human cognition. Hence, a question naturally arises: \textit{can LLMs learn and benefit from their mistakes, especially for their reasoning? } This study investigates this problem from both the prompting and model-tuning perspectives. We begin by introducing \textsc{CoTErrorSet}, a new benchmark with 609,432 questions, each designed with both correct and error references, and demonstrating the types and reasons for making such mistakes. To explore the effectiveness of those mistakes, we design two methods: (1) \textbf{Self-rethinking} prompting guides LLMs to rethink whether they have made similar previous mistakes; and (2) \textbf{Mistake tuning} involves finetuning models in both correct and incorrect reasoning domains, rather than only tuning models to learn ground truth in traditional methodology. We conduct a series of experiments to prove LLMs can obtain benefits from mistakes in both directions. Our two methods offer potentially cost-effective strategies by leveraging errors to enhance reasoning capabilities, which costs significantly less than creating meticulously hand-crafted golden references. We ultimately make a thorough analysis of the reasons behind LLMs’ errors, which provides directions that future research needs to overcome. \textsc{CoTErrorSet} will be published soon on \texttt{Anonymity Link}.

arxiv情報

著者 Yongqi Tong,Dawei Li,Sizhe Wang,Yujia Wang,Fei Teng,Jingbo Shang
発行日 2024-03-29 08:30:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク