要約
推論タスクにおける大規模言語モデル (LLM) のパフォーマンスは、プロンプト設計に大きく依存しており、思考連鎖 (CoT) と自己一貫性がこの能力を強化する重要な方法です。
ただし、これらの方法では、LLM によって生成された応答を完全に活用して、後続の応答をガイドすることはできません。
この論文では、プログレッシブ ヒント プロンプティング (PHP) と呼ばれる新しいプロンプト方法を提案します。これは、以前に生成された回答をヒントとして使用して、正解に向けて段階的にガイドすることにより、ユーザーと LLM の間で自動的に複数の対話を可能にします。
PHP は CoT および自己一貫性と直交しているため、最先端の技術と簡単に組み合わせてパフォーマンスをさらに向上させることができます。
私たちは 7 つのベンチマークについて広範かつ包括的な実験を実施しました。
結果は、PHP が高い効率性を維持しながら精度を大幅に向上させることを示しています。
たとえば、text-davinci-003 では、Complex CoT と比較して貪欲なデコードを使用した GSM8K で 4.2% の改善が見られ、自己一貫性によりサンプル パスが 46.17% 削減されました。
GPT-4 と PHP を使用すると、SVAMP (89.1% -> 91.9%)、GSM8K (92% -> 95.5%)、AQuA (76.4% -> 79.9%)、および MATH (
50.3% -> 53.9%)。
要約(オリジナル)
The performance of Large Language Models (LLMs) in reasoning tasks depends heavily on prompt design, with Chain-of-Thought (CoT) and self-consistency being critical methods that enhance this ability. However, these methods do not fully exploit the answers generated by the LLM to guide subsequent responses. This paper proposes a new prompting method, named Progressive-Hint Prompting (PHP), that enables automatic multiple interactions between users and LLMs by using previously generated answers as hints to progressively guide toward the correct answers. PHP is orthogonal to CoT and self-consistency, making it easy to combine with state-of-the-art techniques to further improve performance. We conducted extensive and comprehensive experiments on seven benchmarks. The results show that PHP significantly improves accuracy while remaining highly efficient. For instance, with text-davinci-003, we observed a 4.2% improvement on GSM8K with greedy decoding compared to Complex CoT, and a 46.17% reduction in sample paths with self-consistency. With GPT-4 and PHP, we achieve state-of-the-art performances on SVAMP (89.1% -> 91.9%), GSM8K (92% -> 95.5%), AQuA (76.4% -> 79.9%) and MATH (50.3% -> 53.9%).
arxiv情報
著者 | Chuanyang Zheng,Zhengying Liu,Enze Xie,Zhenguo Li,Yu Li |
発行日 | 2023-08-10 03:41:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google