An automatically discovered chain-of-thought prompt generalizes to novel models and datasets

要約

タイトル:新しいモデルやデータセットに汎用する自動的に発見された思考連鎖のプロンプト
要約:

– 思考連鎖(CoT)の能力は、大規模言語モデル(LLM)の性能と説明性を改善することができる。
– しかし、以前のモデル世代に対して策定されたプロンプト戦略が、新しいモデル世代や異なるデータセットに対して汎用性があるかについての不確実性が残されている。
– この小規模な研究では、自然言語処理の6つの新しいモデル(davinci-002、davinci-003、GPT-3.5-turbo、GPT-4、Flan-T5-xxl、Cohere command-xlarge)と、科学や医療分野の6つの質問応答データセットを用いて、CoT推論を引き起こすゼロショットのプロンプトの性能を比較した。
– 結果、自動プロンプト発見によって以前に発見されたCoTプロンプトが、実験条件に対してロバストな性能を発揮し、最先端のモデルであるGPT-4に適用された場合に最良の結果を生み出すことがわかった。

要約(オリジナル)

Emergent chain-of-thought (CoT) reasoning capabilities promise to improve performance and explainability of large language models (LLMs). However, uncertainties remain about how prompting strategies formulated for previous model generations generalize to new model generations and different datasets. In this small-scale study we compare the performance of a range of zero-shot prompts for inducing CoT reasoning across six recently released LLMs (davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl and Cohere command-xlarge) on a mixture of six question-answering datasets, including datasets from scientific and medical domains. We find that a CoT prompt that was previously discovered through automated prompt discovery shows robust performance across experimental conditions and produces best results when applied to the state-of-the-art model GPT-4.

arxiv情報

著者 Konstantin Hebenstreit,Robert Praas,Louis P Kiesewetter,Matthias Samwald
発行日 2023-05-04 15:07:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク