Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data

要約

思考連鎖プロンプティング (CoT) は、大規模言語モデル (LLM) の推論能力を向上させ、算術、常識、および記号推論タスクで優れたパフォーマンスを実現します。
ただし、ほとんどの CoT 研究は、慎重に設計された人間が注釈を付けた合理的なチェーンに依存して、言語モデルを促進します。
これは、これらの一般的なタスクへの CoT プロンプトのアプリケーションに対する障壁を作成します。
このホワイト ペーパーでは、小さなラベル付きデータセットから合理的なチェーンを自動的に拡張することで CoT の人間工学をバイパスできる新しい戦略 Automate-CoT (Automatic Prompt Augmentation and Selection with Chain-of-Thought) を提案します。
ラベルに基づいて、マシンが生成した理論的チェーンの候補プールを構築します。
最後に、分散削減ポリシー勾配戦略を採用してブラックボックス言語モデルの各例の重要性を推定することにより、CoT プロンプトのプールからいくつかの論理的チェーンの最適な組み合わせを選択します。
Automate-CoT を使用すると、CoT 手法をさまざまなタスクにすばやく適応させることができます。
実験結果は、最先端の結果が算術推論 (+2.7\%)、常識的推論 (+3.4\%)、記号的推論 (+3.2\%)、および非
-推論タスク (+2.5\%)。
コードは https://github.com/shizhediao/automate-cot で入手できます。

要約(オリジナル)

Chain-of-thought prompting (CoT) advances the reasoning abilities of large language models (LLMs) and achieves superior performance in arithmetic, commonsense, and symbolic reasoning tasks. However, most CoT studies rely on carefully designed human-annotated rational chains to prompt the language model, which poses challenges for real-world applications where labeled training data is available without human-annotated rational chains. This creates barriers to applications of CoT prompting to these general tasks. This paper proposes a new strategy, Automate-CoT (Automatic Prompt Augmentation and Selection with Chain-of-Thought), that can bypass human engineering of CoTs by automatically augmenting rational chains from a small labeled dataset, and then pruning low-quality chains to construct a candidate pool of machine-generated rationale chains based on the labels. Finally, it selects the optimal combination of several rationale chains from the pool for CoT prompting by employing a variance-reduced policy gradient strategy to estimate the significance of each example in a black-box language model. Automate-CoT enables a quick adaptation of the CoT technique to different tasks. Experimental results demonstrate the effectiveness of our method, where state-of-the-art results are achieved on arithmetic reasoning (+2.7\%), commonsense reasoning (+3.4\%), symbolic reasoning (+3.2\%), and non-reasoning tasks (+2.5\%). Our code will be available at https://github.com/shizhediao/automate-cot.

arxiv情報

著者 KaShun Shum,Shizhe Diao,Tong Zhang
発行日 2023-02-24 18:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク