Large Language Models are reasoners with Self-Verification

要約

大規模言語モデル (LLM) が思考連鎖 (CoT) によって複雑な推論を実行する場合、個々のミスに非常に敏感になる可能性があります。
この問題に対処するために、検証者をトレーニングする必要がありました。
ご存知のように、人間が結論を推測した後、再検証することでそれをチェックすることがよくあります。これにより、いくつかの間違いを避けることができます。
CoT の結論を条件として使用して新しいサンプルを作成し、マスクされた元の条件を再予測するよう LLM に依頼する、自己検証と呼ばれる新しい方法を提案します。
精度に基づいて、説明可能な検証スコアを計算します。
この方法は、少数ショット学習を使用する場合に、複数の算術および論理推論データセットの精度を向上させることができます。
私たちは、LLM が自身の結論の説明可能な自己検証を実施し、競争力のある推論パフォーマンスを達成できることを実証しました。
広範な実験により、私たちの方法が複数の大規模言語モデルを自己検証で支援できることが実証されており、誤った CoT からの干渉を回避できます。
コードは \url{https://github.com/WENGSYX/Self-Verification} で入手できます。

要約(オリジナル)

When a large language model (LLM) performs complex reasoning by chain of thought (CoT), it can be highly sensitive to individual mistakes. We have had to train verifiers to address this issue. As we all know, after human inferring a conclusion, they often check it by re-verifying it, which can avoid some mistakes. We propose a new method called self-verification that uses the conclusion of the CoT as a condition to build a new sample and asks the LLM to re-predict the original conditions which be masked. We calculate an explainable verification score based on the accuracy. This method can improve the accuracy of multiple arithmetics and logical reasoning datasets when using few-shot learning. we have demonstrated that LLMs can conduct explainable self-verification of their own conclusions and achieve competitive reasoning performance. Extensive experimentals have demonstrated that our method can help multiple large language models with self-verification can avoid interference from incorrect CoT. Code is available at \url{https://github.com/WENGSYX/Self-Verification}

arxiv情報

著者 Yixuan Weng,Minjun Zhu,Fei Xia,Bin Li,Shizhu He,Kang Liu,Jun Zhao
発行日 2023-03-29 11:52:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク