要約
事前にトレーニングされた大規模な言語モデルと組み合わされた一連の思考プロンプトは、複雑な推論タスクで有望な結果を達成しました。
この論文では、思考連鎖プロンプトで使用される単純な貪欲な復号化を置き換えるために、新しい復号化戦略である自己一貫性を提案します。
最初に、貪欲な推論パスのみを選択するのではなく、さまざまな推論パスのセットをサンプリングし、次に、サンプリングされた推論パスを除外して、最も一貫性のある答えを選択します。
自己一貫性は、複雑な推論の問題は通常、複数の異なる考え方を認め、その固有の正解につながるという直感を活用します。
私たちの広範な経験的評価は、GSM8K (+17.9%)、SVAMP (+11.0%)、AQuA を含む、一般的な算術および常識推論のさまざまなベンチマークで、自己一貫性が思考連鎖プロンプトのパフォーマンスを大幅に向上させることを示しています。
(+12.2%)、StrategyQA (+6.4%)、ARC チャレンジ (+3.9%)。
要約(オリジナル)
Chain-of-thought prompting combined with pre-trained large language models has achieved encouraging results on complex reasoning tasks. In this paper, we propose a new decoding strategy, self-consistency, to replace the naive greedy decoding used in chain-of-thought prompting. It first samples a diverse set of reasoning paths instead of only taking the greedy one, and then selects the most consistent answer by marginalizing out the sampled reasoning paths. Self-consistency leverages the intuition that a complex reasoning problem typically admits multiple different ways of thinking leading to its unique correct answer. Our extensive empirical evaluation shows that self-consistency boosts the performance of chain-of-thought prompting with a striking margin on a range of popular arithmetic and commonsense reasoning benchmarks, including GSM8K (+17.9%), SVAMP (+11.0%), AQuA (+12.2%), StrategyQA (+6.4%) and ARC-challenge (+3.9%).
arxiv情報
著者 | Xuezhi Wang,Jason Wei,Dale Schuurmans,Quoc Le,Ed Chi,Sharan Narang,Aakanksha Chowdhery,Denny Zhou |
発行日 | 2023-03-07 17:57:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google