要約
考え方の促しは、大規模な言語モデルの推論能力を促進することに大きな成功をもたらしました。
この作業では、これらの強化された推論能力を悪用して、必ずしも推論に焦点を合わせているとは限らないタスクの大規模な言語モデルの堅牢性を改善する方法を探ります。
特に、幅広い大規模な言語モデルが、障害のあるチェーンと呼ばれる単純な方法を使用して、参照腐敗に対する堅牢性を大幅に改善する方法を示します。
経験的には、特にこの方法の単純さと適用性を考えると、改善は驚くべきものになる可能性があります。
たとえば、自然な質問タスクでは、GPT-4Oの精度は60%から3%に低下し、提供された10の参照の1つが迅速な噴射攻撃で破損した場合、標準プロンプトが破損します。
対照的に、GPT-4Oは、チェーンオブ防衛型考えプロンプトを使用して、50%の精度を維持しています。
要約(オリジナル)
Chain-of-thought prompting has demonstrated great success in facilitating the reasoning abilities of large language models. In this work, we explore how these enhanced reasoning abilities can be exploited to improve the robustness of large language models in tasks that are not necessarily reasoning-focused. In particular, we show how a wide range of large language models exhibit significantly improved robustness against reference corruption using a simple method called chain-of-defensive-thought, where only a few exemplars with structured and defensive reasoning are provided as demonstrations. Empirically, the improvements can be astounding, especially given the simplicity and applicability of the method. For example, in the Natural Questions task, the accuracy of GPT-4o degrades from 60% to as low as 3% with standard prompting when 1 out of 10 references provided is corrupted with prompt injection attacks. In contrast, GPT-4o using chain-of-defensive-thought prompting maintains an accuracy of 50%.
arxiv情報
著者 | Wenxiao Wang,Parsa Hosseini,Soheil Feizi |
発行日 | 2025-04-29 13:50:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google