要約
大規模言語モデル (LLM) の推論機能を強化する場合、先行研究は主に、少数ショットまたはゼロショットの思考連鎖 (CoT) プロンプトなどの特定のプロンプト手法に焦点を当てています。
これらの方法は効果的ではありますが、多くの場合、手動による集中的なプロンプト エンジニアリングが必要になります。
私たちの研究は、「LLM はプロンプトなしで効果的に推論できるか?」という問いによって、新しいアプローチを採用しています。
私たちの調査結果は、興味深いことに、\textit{decoding} プロセスを変更するだけで、事前トレーニングされた LLM から CoT 推論パスを導き出せることが明らかになりました。
従来の貪欲なデコードではなく、上位 $k$ の代替トークンを調査し、CoT パスがこれらのシーケンスに頻繁に固有であることを明らかにしました。
このアプローチにより、プロンプトの混乱要因を回避できるだけでなく、LLM の \textit{固有} 推論能力を評価することもできます。
さらに、デコード パスに CoT が存在することは、モデルのデコードされた応答の信頼性が高いことと相関していることがわかります。
この信頼度メトリックは、CoT パスと非 CoT パスを効果的に区別します。
さまざまな推論ベンチマークに関する広範な実証研究により、提案された CoT デコーディングが標準的な貪欲デコーディングよりも大幅に優れていることが示されています。
要約(オリジナル)
In enhancing the reasoning capabilities of large language models (LLMs), prior research primarily focuses on specific prompting techniques such as few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while effective, often involve manually intensive prompt engineering. Our study takes a novel approach by asking: Can LLMs reason effectively without prompting? Our findings reveal that, intriguingly, CoT reasoning paths can be elicited from pre-trained LLMs by simply altering the \textit{decoding} process. Rather than conventional greedy decoding, we investigate the top-$k$ alternative tokens, uncovering that CoT paths are frequently inherent in these sequences. This approach not only bypasses the confounders of prompting but also allows us to assess the LLMs’ \textit{intrinsic} reasoning abilities. Moreover, we observe that the presence of a CoT in the decoding path correlates with a higher confidence in the model’s decoded answer. This confidence metric effectively differentiates between CoT and non-CoT paths. Extensive empirical studies on various reasoning benchmarks show that the proposed CoT-decoding substantially outperforms the standard greedy decoding.
arxiv情報
著者 | Xuezhi Wang,Denny Zhou |
発行日 | 2024-02-15 18:55:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google