要約
学術界や業界全体で大規模言語モデル (LLM) への依存度が高まっているため、プロンプトに対する LLM の堅牢性を包括的に理解することが必要です。
この重要なニーズに応えて、敵対的プロンプトに対する LLM の回復力を測定するために設計された堅牢性ベンチマークである PromptBench を導入します。
この研究では、文字、単語、文、意味などの複数のレベルにわたるプロンプトをターゲットとした、大量の敵対的なテキスト攻撃が使用されています。
これらのプロンプトは、感情分析、自然言語推論、読解、機械翻訳、数学の問題解決などのさまざまなタスクに使用されます。
私たちの研究では、4,032 の敵対的プロンプトが生成され、8 つのタスクと 13 のデータセットにわたって綿密に評価され、合計 567,084 のテストサンプルが含まれています。
私たちの調査結果は、現代の LLM が敵対的なプロンプトに対して脆弱であることを示しています。
さらに、迅速な堅牢性とその伝達可能性の背後にある謎を理解するための包括的な分析を示します。
その後、研究者と日常ユーザーの両方に有益な、洞察力に富んだ堅牢性分析と、迅速な構成のための実用的な推奨事項を提供します。
私たちは、敵対的なプロンプトを生成するためのコード、プロンプト、および方法論を一般にアクセスできるようにし、それによってこの極めて重要な分野での共同探索を可能にし、奨励します: https://github.com/microsoft/promptbench。
要約(オリジナル)
The increasing reliance on Large Language Models (LLMs) across academia and industry necessitates a comprehensive understanding of their robustness to prompts. In response to this vital need, we introduce PromptBench, a robustness benchmark designed to measure LLMs’ resilience to adversarial prompts. This study uses a plethora of adversarial textual attacks targeting prompts across multiple levels: character, word, sentence, and semantic. These prompts are then employed in diverse tasks, such as sentiment analysis, natural language inference, reading comprehension, machine translation, and math problem-solving. Our study generates 4,032 adversarial prompts, meticulously evaluated over 8 tasks and 13 datasets, with 567,084 test samples in total. Our findings demonstrate that contemporary LLMs are vulnerable to adversarial prompts. Furthermore, we present comprehensive analysis to understand the mystery behind prompt robustness and its transferability. We then offer insightful robustness analysis and pragmatic recommendations for prompt composition, beneficial to both researchers and everyday users. We make our code, prompts, and methodologies to generate adversarial prompts publicly accessible, thereby enabling and encouraging collaborative exploration in this pivotal field: https://github.com/microsoft/promptbench.
arxiv情報
著者 | Kaijie Zhu,Jindong Wang,Jiaheng Zhou,Zichen Wang,Hao Chen,Yidong Wang,Linyi Yang,Wei Ye,Neil Zhenqiang Gong,Yue Zhang,Xing Xie |
発行日 | 2023-08-24 07:09:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google