LLMs cannot find reasoning errors, but can correct them!

要約

自己修正は、スタイルと品質の点で LLM 出力の改善に有望であることが示されていますが (例: Chen et al., 2023; Madaan et al., 2023)、論理的または推論上のエラーを自己修正しようとする最近の試みにより、正しい答えが正しくなくなることがよくあります。
不正確であり、全体的なパフォーマンスが低下します (Huang et al., 2023)。
このホワイトペーパーでは、自己修正プロセスを、間違い発見と出力修正という 2 つの主要なコンポーネントに分割します。
間違いを見つけるために、思考連鎖推論トレースにおける論理的間違いのデータセットである BIG-Bench Mistake をリリースします。
いくつかの最先端の LLM のベンチマーク数値を提供し、LLM が一般に論理的間違いを見つけるのに苦労していることを示します。
出力修正については、間違いの位置に関する情報が与えられた場合に大幅な改善をもたらすバックトラッキング手法を提案します。
私たちは、バックトラッキングを強化学習手法に代わる軽量の手段として解釈し、報酬モデルを使用した場合でも 60 ~ 70% の精度でバックトラッキングが引き続き有効であることを示します。

要約(オリジナル)

While self-correction has shown promise in improving LLM outputs in terms of style and quality (e.g. Chen et al., 2023; Madaan et al., 2023), recent attempts to self-correct logical or reasoning errors often cause correct answers to become incorrect, resulting in worse performances overall (Huang et al., 2023). In this paper, we break down the self-correction process into two core components: mistake finding and output correction. For mistake finding, we release BIG-Bench Mistake, a dataset of logical mistakes in Chain-of-Thought reasoning traces. We provide benchmark numbers for several state-of-the-art LLMs, and demonstrate that LLMs generally struggle with finding logical mistakes. For output correction, we propose a backtracking method which provides large improvements when given information on mistake location. We construe backtracking as a lightweight alternative to reinforcement learning methods, and show that it remains effective with a reward model at 60-70% accuracy.

arxiv情報

著者 Gladys Tyen,Hassan Mansoor,Victor Cărbune,Peter Chen,Tony Mak
発行日 2024-01-09 03:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク