要約
思考連鎖 (CoT) は、大規模言語モデル (LLM) の推論能力を向上させ、複雑な推論タスクで優れたパフォーマンスを実現します。
ただし、ほとんどの CoT 研究は、LLM を促すために慎重に設計された人間による注釈付きの合理的チェーンに依存しており、ラベル付きデータが合理的チェーンなしで利用できる現実世界のアプリケーションにとって課題となっています。
この論文では、新しい戦略である Automate-CoT (Automatic Prompt Augmentation and Selection with Chain-of-Thought) を提案します。これは、ラベル付きの小さなデータセットから合理的なチェーンを自動的に拡張し、低品質のチェーンを枝刈りすることで、CoT の人為工学をバイパスすることができます。
ラベルに基づいて機械生成された理論的根拠チェーンの候補プールを構築します。
最後に、分散を低減したポリシー勾配戦略を採用して各例の重要性を推定することにより、CoT プロンプトのプールからいくつかの理論的チェーンの最適な組み合わせを選択します。
Automate-CoT を使用すると、CoT 手法をさまざまなタスクに迅速に適応できます。
実験結果は私たちの方法の有効性を示しており、算術推論 (+2.7%)、常識的推論 (+3.4%)、記号推論 (+3.2%)、および非推論タスク (+2.5%) で競合的な結果が得られています。
コードは https://github.com/SHUMKASHUN/Automate-CoT で入手できます。
要約(オリジナル)
Chain-of-thought (CoT) advances the reasoning abilities of large language models (LLMs) and achieves superior performance in complex reasoning tasks. However, most CoT studies rely on carefully designed human-annotated rational chains to prompt LLMs, posing challenges for real-world applications where labeled data is available without rational chains. This paper proposes a new strategy, Automate-CoT (Automatic Prompt Augmentation and Selection with Chain-of-Thought), that can bypass human engineering of CoT by automatically augmenting rational chains from a small labeled dataset, and then pruning low-quality chains to construct a candidate pool of machine-generated rationale chains based on the labels. Finally, it selects the optimal combination of several rationale chains from the pool for CoT prompting by employing a variance-reduced policy gradient strategy to estimate the significance of each example. Automate-CoT enables a quick adaptation of the CoT technique to different tasks. Experimental results demonstrate the effectiveness of our method, where competitive results are achieved on arithmetic reasoning (+2.7%), commonsense reasoning (+3.4%), symbolic reasoning (+3.2%), and non-reasoning tasks (+2.5%). The code is available at https://github.com/SHUMKASHUN/Automate-CoT.
arxiv情報
著者 | KaShun Shum,Shizhe Diao,Tong Zhang |
発行日 | 2024-02-27 14:49:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google