学術界や業界全体で大規模言語モデル (LLM) への依存度が高まっているため、プロンプトに対する LLM の堅牢性を包括的に理解することが必要です。
この重要なニーズに応えて、敵対的プロンプトに対する LLM の回復力を測定するために設計された堅牢性ベンチマークである PromptBench を導入します。
敵対的なプロンプトは、タイプミスや同義語などのもっともらしいユーザー エラーを模倣するように作成されており、セマンティックな整合性を維持しながら、わずかな逸脱が LLM の結果にどのような影響を与えるかを評価することを目的としています。
私たちの研究では 4,788 個の敵対的プロンプトが生成され、8 つのタスクと 13 のデータセットにわたって綿密に評価されました。
私たちの調査結果は、現代の LLM が敵対的なプロンプトに対して堅牢ではないことを示しています。
コードは https://github.com/microsoft/promptbench から入手できます。
The increasing reliance on Large Language Models (LLMs) across academia and industry necessitates a comprehensive understanding of their robustness to prompts. In response to this vital need, we introduce PromptBench, a robustness benchmark designed to measure LLMs’ resilience to adversarial prompts. This study uses a plethora of adversarial textual attacks targeting prompts across multiple levels: character, word, sentence, and semantic. The adversarial prompts, crafted to mimic plausible user errors like typos or synonyms, aim to evaluate how slight deviations can affect LLM outcomes while maintaining semantic integrity. These prompts are then employed in diverse tasks, such as sentiment analysis, natural language inference, reading comprehension, machine translation, and math problem-solving. Our study generates 4788 adversarial prompts, meticulously evaluated over 8 tasks and 13 datasets. Our findings demonstrate that contemporary LLMs are not robust to adversarial prompts. Furthermore, we present comprehensive analysis to understand the mystery behind prompt robustness and its transferability. We then offer insightful robustness analysis and pragmatic recommendations for prompt composition, beneficial to both researchers and everyday users. Code is available at: https://github.com/microsoft/promptbench.
著者 | Kaijie Zhu,Jindong Wang,Jiaheng Zhou,Zichen Wang,Hao Chen,Yidong Wang,Linyi Yang,Wei Ye,Yue Zhang,Neil Zhenqiang Gong,Xing Xie |
発行日 | 2023-10-18 14:16:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google