要約
最近、思考連鎖 (CoT) の促進により、GPT-3 などの大規模言語モデル (LLM) は、算術推論、常識推論、論理推論などのいくつかの自然言語処理タスクにおいて強力な推論能力を示しています。
ただし、CoT を備えた LLM は、複数ステップのプロンプトと複数トークンの予測を必要とするため、個々の間違いに非常に敏感で、エラーの蓄積に対して脆弱です。
上記の問題により、LLM には答えを検証する機能が必要になります。
実際、思考による意思決定タスクによっては、結論を推測した後、間違いを避けるために手順を再検証してタスクをチェックすることがよくあります。
この論文では、LLM にも同様の自己検証能力があることを提案し、証明します。
CoT によって得られた結論は、元の問題を解決するための条件の 1 つとみなします。
元の条件を交互にマスクし、その結果を予測することで、再予測された条件が正しいかどうかに基づいて、説明可能な回答検証スコアを計算します。
実験結果は、提案された方法がさまざまな算術的、常識的、論理的推論データセットでの推論パフォーマンスを向上できることを示しています。
私たちのコードは https://github.com/WENGSYX/Self-Verification で公開されています。
要約(オリジナル)
Recently, with the chain of thought (CoT) prompting, large language models (LLMs), e.g., GPT-3, have shown strong reasoning ability in several natural language processing tasks such as arithmetic, commonsense, and logical reasoning. However, LLMs with CoT require multi-step prompting and multi-token prediction, which is highly sensitive to individual mistakes and vulnerable to error accumulation. The above issues make the LLMs need the ability to verify the answers. In fact, after inferring conclusions in some thinking decision tasks, people often check them by re-verifying steps to avoid some mistakes. In this paper, we propose and prove that LLMs also have similar self-verification abilities. We take the conclusion obtained by CoT as one of the conditions for solving the original problem. By taking turns masking the original conditions and predicting their results, we calculate an explainable answer verification score based on whether the re-predicted conditions are correct. Experimental results demonstrate that the proposed method can improve the reasoning performance on various arithmetic, commonsense, and logical reasoning datasets. Our code is publicly available at: https://github.com/WENGSYX/Self-Verification.
arxiv情報
著者 | Yixuan Weng,Minjun Zhu,Fei Xia,Bin Li,Shizhu He,Kang Liu,Jun Zhao |
発行日 | 2023-05-24 09:34:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google