SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

要約

大規模言語モデル (LLM) の最近の進歩、特に思考連鎖 (CoT) プロンプトの発明により、推論の問題を解決できるようになりました。
ただし、最も強力な LLM でさえ、非線形思考と複数ステップの推論を必要とする、より複雑な問題に依然として苦戦しています。
この研究では、LLM が外部リソースに頼らずに自分自身のエラーを認識する能力があるかどうかを調査します。
特に、段階的な推論の中で個々のエラーを特定するためにそれらを使用できるかどうかを調査します。
この目的を達成するために、このようなエラーを認識するためのゼロショット検証スキームを提案します。
次に、この検証スキームを使用して、生成されたさまざまな回答に対して加重投票を実行することで、質問応答のパフォーマンスを向上させます。
このメソッドを 3 つの数学データセット (GSM8K、MathQA、および MATH) でテストしたところ、エラーが正常に認識され、最終的な予測パフォーマンスが向上することがわかりました。

要約(オリジナル)

The recent progress in large language models (LLMs), especially the invention of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning problems. However, even the strongest LLMs are still struggling with more complicated problems that require non-linear thinking and multi-step reasoning. In this work, we explore whether LLMs have the ability to recognize their own errors, without resorting to external resources. In particular, we investigate whether they can be used to identify individual errors within a step-by-step reasoning. To this end, we propose a zero-shot verification scheme to recognize such errors. We then use this verification scheme to improve question-answering performance, by using it to perform weighted voting on different generated answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and find that it successfully recognizes errors and, in turn, increases final predictive performance.

arxiv情報

著者 Ning Miao,Yee Whye Teh,Tom Rainforth
発行日 2023-08-01 10:31:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク