Stress Testing Chain-of-Thought Prompting for Large Language Models

要約

このレポートでは、大規模言語モデル (LLM) の複数ステップの推論能力の向上における思考連鎖 (CoT) プロンプトの有効性を検証します。
以前の研究 \cite{Min2022Re ThinkingWork} に触発されて、私たちは 3 種類の CoT プロンプト摂動、つまり CoT 順序、CoT 値、CoT 演算子がさまざまなタスクにおける GPT-3 のパフォーマンスに及ぼす影響を分析します。
私たちの調査結果は、誤った CoT プロンプトが精度メトリクスのパフォーマンス低下につながることを示しています。
CoT の正しい値は、正解を予測するために重要です。
さらに、CoT 演算子または CoT 順序が間違っている不正確なデモンストレーションは、値ベースの摂動と比較した場合、パフォーマンスにそれほど大きな影響を与えません。
この研究により、CoT プロンプティングについての理解が深まり、LLM がコンテキスト内で推論を学習する能力に関するいくつかの新しい疑問が生まれました。

要約(オリジナル)

This report examines the effectiveness of Chain-of-Thought (CoT) prompting in improving the multi-step reasoning abilities of large language models (LLMs). Inspired by previous studies \cite{Min2022RethinkingWork}, we analyze the impact of three types of CoT prompt perturbations, namely CoT order, CoT values, and CoT operators on the performance of GPT-3 on various tasks. Our findings show that incorrect CoT prompting leads to poor performance on accuracy metrics. Correct values in the CoT is crucial for predicting correct answers. Moreover, incorrect demonstrations, where the CoT operators or the CoT order are wrong, do not affect the performance as drastically when compared to the value based perturbations. This research deepens our understanding of CoT prompting and opens some new questions regarding the capability of LLMs to learn reasoning in context.

arxiv情報

著者 Aayush Mishra,Karan Thakkar
発行日 2023-09-28 17:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク