要約
タイトル:大規模言語モデルにおけるプログレッシブ・ヒント・プロンプティングによる推論の改善
要約:
– 大規模言語モデル(LLMs)の推論タスクの性能は、プロンプトの設計に強く依存する。
– Chain-of-Thought(CoT)と自己整合性は、この能力を向上させるために重要な手法だが、これらの手法によって生成された回答を完全に活用していない。
– この論文では、以前に生成された回答をヒントとして使用し、徐々に正しい答えに導くことができる新しいプロンプティング手法「Progressive-Hint Prompting(PHP)」を提案する。
– PHPはCoTと自己整合性とは直交し、最新の技術と簡単に組み合わせてさらに性能を向上させることができる。
– 著者らは、提案手法の有効性を示すために、広範な評価を行った。
– 6つのベンチマークでの実験結果は、CoTと自己整合性をPHPと組み合わせることで、精度を大幅に向上させながら高い効率性を維持することができることを示している。
– GPT-4とPHPを組み合わせることで、SVAMP、GSM8K、AQuA、MATHの各ベンチマークにおいて、最先端の性能を発揮した。
要約(オリジナル)
The performance of Large Language Models (LLMs) in reasoning tasks depends heavily on prompt design, with Chain-of-Thought (CoT) and self-consistency being critical methods that enhance this ability. However, these methods do not fully exploit the answers generated by the LLM to guide subsequent responses. This paper proposes a new prompting method, named Progressive-Hint Prompting (PHP), that enables automatic multiple interactions between users and LLMs by using previously generated answers as hints to progressively guide toward the correct answers. PHP is orthogonal to CoT and self-consistency, making it easy to combine with state-of-the-art techniques to further improve performance. We conducted an extensive and comprehensive evaluation to demonstrate the effectiveness of the proposed method. Our experimental results on six benchmarks show that combining CoT and self-consistency with PHP significantly improves accuracy while remaining highly efficient. For instance, with text-davinci-003, we observed a 4.2% improvement on GSM8K with greedy decoding compared to Complex CoT, and a 46.17% reduction in sample paths with self-consistency. With GPT-4 and PHP, we achieve state-of-the-art performances on SVAMP (89.1% -> 91.9%), GSM8K (92% -> 95.5%), AQuA (76.4% -> 79.9%) and MATH (50.2% -> 53.9%).
arxiv情報
著者 | Chuanyang Zheng,Zhengying Liu,Enze Xie,Zhenguo Li,Yu Li |
発行日 | 2023-05-05 14:33:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI