R$^3$ Prompting: Review, Rephrase and Resolve for Chain-of-Thought Reasoning in Large Language Models under Noisy Context

要約

思考連鎖 (CoT) プロンプトの助けを借りて、大規模言語モデル (LLM) はさまざまな推論タスクで目覚ましいパフォーマンスを達成しました。
ただし、それらのほとんどはノイズのないコンテキストの下で評価されており、ノイズのあるコンテキストの下で不正確な結果を生成する LLM のジレンマは十分に調査されていません。
既存の研究ではトリガー文を利用してLLMが関連情報に集中するよう促していますが、トリガーが最終的な答えの予測に与える影響は限定的です。
中間推論ステップがユーザーとLLMの間の複数ラウンドの対話によって促進される対話型CoT手法に触発され、ノイズの多いコンテキスト下でのCoT推論のための新しいプロンプト手法、すなわちR$^3$プロンプティングを提案します。
具体的には、R$^3$ プロンプトは LLM と対話して、キーセンテンスの抽出、変数の宣言、および回答の予測を実行します。これは、レビュー、言い換え、解決の思考プロセスに対応します。
最後のインタラクションで生成された応答は、次のインタラクションの応答を導くためのヒントとして機能します。
私たちの実験では、ノイズの多いコンテキスト下での 5 つの推論タスクにおいて、R$^3$ プロンプトが既存の CoT プロンプト手法を大幅に上回るパフォーマンスを示しました。
GPT-3.5-turbo を使用すると、最も競争力の高いプロンプト ベースラインと比較して、ノイズの多いコンテキスト下での推論タスクで平均 3.7% の精度向上が観察されました。
さらなる解析とアブレーション研究により、ノイズの多いコンテキスト下で LLM の推論タスクを解決する際の R$^3$ プロンプト手法の堅牢性と一般化が示されています。

要約(オリジナル)

With the help of Chain-of-Thought (CoT) prompting, Large Language Models (LLMs) have achieved remarkable performance on various reasoning tasks. However, most of them have been evaluated under noise-free context and the dilemma for LLMs to produce inaccurate results under the noisy context has not been fully investigated. Existing studies utilize trigger sentences to encourage LLMs to concentrate on the relevant information but the trigger has limited effect on final answer prediction. Inspired by interactive CoT method, where intermediate reasoning steps are promoted by multiple rounds of interaction between users and LLMs, we propose a novel prompting method, namely R$^3$ prompting, for CoT reasoning under noisy context. Specifically, R$^3$ prompting interacts with LLMs to perform key sentence extraction, variable declaration and answer prediction, which corresponds to a thought process of reviewing, rephrasing and resolving. The responses generated at the last interaction will perform as hints to guide toward the responses of the next interaction. Our experiments show that R$^3$ prompting significantly outperforms existing CoT prompting methods on five reasoning tasks under noisy context. With GPT-3.5-turbo, we observe 3.7% accuracy improvement on average on the reasoning tasks under noisy context compared to the most competitive prompting baseline. More analyses and ablation studies show the robustness and generalization of R$^3$ prompting method in solving reasoning tasks in LLMs under noisy context.

arxiv情報

著者 Qingyuan Tian,Hanlun Zhu,Lei Wang,Yang Li,Yunshi Lan
発行日 2023-10-25 10:34:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク