要約
大規模な言語モデル(LLM)は、医療の文脈でますます展開されており、敵対的操作に対する安全性、アライメント、および感受性に関する重要な懸念を引き起こしています。
以前のベンチマークは、有害なプロンプトのモデル拒否能力を評価しますが、多くの場合、臨床的特異性、段階的な有害レベル、脱獄スタイルの攻撃のカバレッジを欠いています。
ヘルスケアのLLM安全性を評価するためのベンチマークであるケア(臨床的敵対的堅牢性と安全性の評価)を紹介します。
ケアには、8つの医療安全原則、4つの害レベル、および4つのプロンプトスタイルにまたがる18,000を超えるプロンプトが含まれます:直接、間接、難読化、およびロールプレイには、悪意のあるユースケースの両方をシミュレートします。
モデルの動作を評価するために、3方向応答評価プロトコル(Accept、Caution、Reduse)と細粒の安全性スコアメトリックを提案します。
私たちの分析により、多くの最先端のLLMは、有害なプロンプトを微妙に言い換えると同時に、安全ではあるが非定型的に表現されたクエリを繰り返す脱獄に対して脆弱なままであることが明らかになりました。
最後に、軽量分類器を使用して緩和戦略を提案し、脱獄の試みを検出し、リマインダーベースのコンディショニングを介してより安全な動作に向けてモデルを操縦します。
CAREは、敵対的および曖昧な状態で医療LLMの安全性をテストおよび改善するための厳格な枠組みを提供します。
要約(オリジナル)
Large language models (LLMs) are increasingly deployed in medical contexts, raising critical concerns about safety, alignment, and susceptibility to adversarial manipulation. While prior benchmarks assess model refusal capabilities for harmful prompts, they often lack clinical specificity, graded harmfulness levels, and coverage of jailbreak-style attacks. We introduce CARES (Clinical Adversarial Robustness and Evaluation of Safety), a benchmark for evaluating LLM safety in healthcare. CARES includes over 18,000 prompts spanning eight medical safety principles, four harm levels, and four prompting styles: direct, indirect, obfuscated, and role-play, to simulate both malicious and benign use cases. We propose a three-way response evaluation protocol (Accept, Caution, Refuse) and a fine-grained Safety Score metric to assess model behavior. Our analysis reveals that many state-of-the-art LLMs remain vulnerable to jailbreaks that subtly rephrase harmful prompts, while also over-refusing safe but atypically phrased queries. Finally, we propose a mitigation strategy using a lightweight classifier to detect jailbreak attempts and steer models toward safer behavior via reminder-based conditioning. CARES provides a rigorous framework for testing and improving medical LLM safety under adversarial and ambiguous conditions.
arxiv情報
著者 | Sijia Chen,Xiaomin Li,Mengxue Zhang,Eric Hanchen Jiang,Qingcheng Zeng,Chen-Hsiang Yu |
発行日 | 2025-05-16 16:25:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google