要約
自己一貫性 (SC) は、思考連鎖推論の解読戦略として広く使用されています。
さまざまなマルチステップ推論タスク全体でパフォーマンスが大幅に向上しますが、事前設定されたサイズで複数のサンプリングが必要な高コストの方法です。
この論文では、パフォーマンスを犠牲にすることなく SC のコストを大幅に削減する、シンプルでスケーラブルなサンプリング プロセス \textbf{E}arly-Stopping \textbf{S}elf-\textbf{C}onsistency (ESC) を提案します。
これに基づいて、ESC の 1 つの制御スキームがさらに導出され、さまざまなタスクやモデルのパフォーマンスとコストのバランスが動的に選択されます。
ESC の有効性を実証するために、さまざまなスケールの言語モデルに対する算術推論、常識推論、記号推論という 3 つの人気カテゴリの推論タスクについて広範な実験を実施しました。
実証結果は、ESC が、MATH (-33.8%)、GSM8K (-80.1%)、StrategyQA (-76.8%)、CommonsenseQA を含む 6 つのベンチマークで、思考連鎖推論の平均サンプリング数を大幅に削減することを示しています。
(-78.5%)、Coin Flip (-84.2%)、Last Letters (-67.4%) と同等のパフォーマンスを達成しました。
要約(オリジナル)
Self-consistency (SC) has been a widely used decoding strategy for chain-of-thought reasoning. Despite bringing significant performance improvements across a variety of multi-step reasoning tasks, it is a high-cost method that requires multiple sampling with the preset size. In this paper, we propose a simple and scalable sampling process, \textbf{E}arly-Stopping \textbf{S}elf-\textbf{C}onsistency (ESC), to greatly reduce the cost of SC without sacrificing performance. On this basis, one control scheme for ESC is further derivated to dynamically choose the performance-cost balance for different tasks and models. To demonstrate ESC’s effectiveness, we conducted extensive experiments on three popular categories of reasoning tasks: arithmetic, commonsense and symbolic reasoning over language models with varying scales. The empirical results show that ESC reduces the average number of sampling of chain-of-thought reasoning by a significant margin on six benchmarks, including MATH (-33.8%), GSM8K (-80.1%), StrategyQA (-76.8%), CommonsenseQA (-78.5%), Coin Flip (-84.2%) and Last Letters (-67.4%), while attaining comparable performances.
arxiv情報
著者 | Yiwei Li,Peiwen Yuan,Shaoxiong Feng,Boyuan Pan,Xinglin Wang,Bin Sun,Heda Wang,Kan Li |
発行日 | 2024-01-19 04:03:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google