要約
大規模言語モデル (LLM) では、効果的なプロンプト設計の影響を大きく受けて、タスク固有のパフォーマンスが一貫して進歩しています。
プロンプトに関する最近の研究により、LLM の推論能力が向上しましたが、理解能力をさらに向上させるにはまだギャップが残っています。
この研究では、人間の内省的推論プロセスにヒントを得た戦略であるメタ認知プロンプティング (MP) を紹介します。
MP を使用して、LLM は、固有の膨大な知識と新しい洞察の両方を活用して、体系化された一連の自己認識評価を受けます。
私たちの実験には、Llama2、Vicuna、PaLM、GPT-3.5、GPT-4 の 5 つの一般的な LLM が含まれており、これらはすべて、GLUE および SuperGLUE ベンチマークからのさまざまな一般的な自然言語理解 (NLU) タスクに及びます。
結果は、GPT-4 はほとんどのタスクで一貫して優れていますが、MP を装備すると PaLM がそのパフォーマンス レベルに近づくことを示しています。
さらに、MP は、モデルやデータセット全体で、標準プロンプトや思考連鎖プロンプトなどの既存のプロンプト手法よりも一貫して優れています。
この研究は、LLM の理解能力を強化する可能性を強調し、人間の内省的推論を NLU タスクに反映する利点を強調しています。
要約(オリジナル)
In Large Language Models (LLMs), there have been consistent advancements in task-specific performance, largely influenced by effective prompt design. While recent research on prompting has enhanced the reasoning capabilities of LLMs, a gap remains in further improving their understanding abilities. In this study, we introduce Metacognitive Prompting (MP), a strategy inspired by human introspective reasoning processes. Using MP, LLMs undergo a systematic series of structured, self-aware evaluations, drawing on both their vast inherent knowledge and new insights. Our experiments involve five prevalent LLMs: Llama2, Vicuna, PaLM, GPT-3.5, and GPT-4, all of which span various general natural language understanding (NLU) tasks from the GLUE and SuperGLUE benchmarks. Results indicate that, although GPT-4 consistently excels in most tasks, PaLM, when equipped with MP, approaches its performance level. Furthermore, across models and datasets, MP consistently outperforms existing prompting methods, including standard and chain-of-thought prompting. This study underscores the potential to amplify the understanding abilities of LLMs and highlights the benefits of mirroring human introspective reasoning in NLU tasks.
arxiv情報
著者 | Yuqing Wang,Yun Zhao |
発行日 | 2023-08-15 22:58:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google