Preemptive Answer ‘Attacks’ on Chain-of-Thought Reasoning

要約

大規模言語モデル (LLM) は、思考連鎖 (CoT) プロンプトと組み合わせることで、優れた推論機能を発揮します。
ただし、このアプローチの堅牢性にはさらなる調査が必要です。
この論文では、LLM が推論を行う前に答えを取得する、プリエンプティブ回答と呼ばれる新しいシナリオを紹介します。
この状況は、意図せずに発生する場合もあれば、悪意のあるユーザーによるプロンプト インジェクション攻撃によって引き起こされる場合もあります。
実験の結果、先制的な回答は、さまざまな CoT 手法および広範囲のデータセットにわたってモデルの推論能力を著しく損なうことが明らかになりました。
推論の堅牢性を強化するために、この問題をある程度軽減することを目的とした 2 つの対策を提案します。

要約(オリジナル)

Large language models (LLMs) showcase impressive reasoning capabilities when coupled with Chain-of-Thought (CoT) prompting. However, the robustness of this approach warrants further investigation. In this paper, we introduce a novel scenario termed preemptive answers, where the LLM obtains an answer before engaging in reasoning. This situation can arise inadvertently or induced by malicious users by prompt injection attacks. Experiments reveal that preemptive answers significantly impair the model’s reasoning capability across various CoT methods and a broad spectrum of datasets. To bolster the robustness of reasoning, we propose two measures aimed at mitigating this issue to some extent.

arxiv情報

著者 Rongwu Xu,Zehan Qi,Wei Xu
発行日 2024-05-31 15:15:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク