要約
大規模な言語モデル(LLM)は、ヘルスケアアプリケーションでますます利用されています。
ただし、臨床診療における彼らの展開は、有害な情報の潜在的な広がりを含む重大な安全上の懸念を引き起こします。
この研究では、7つのLLMの脆弱性を体系的に評価して、医療文脈内で3つの高度なブラックボックスの脱却技術を評価します。
これらの手法の有効性を定量化するために、自動化されたドメインに適応したエージェント評価パイプラインを提案します。
実験結果は、主要な商業およびオープンソースLLMが医療脱却攻撃に対して非常に脆弱であることを示しています。
モデルの安全性と信頼性を強化するために、医学的敵対攻撃に対する防御における継続的な微調整(CFT)の有効性をさらに調査します。
私たちの調査結果は、進化する攻撃方法の評価、ドメイン固有の安全性アラインメント、およびLLMの安全性活動のバランスの必要性を強調しています。
この研究は、AI臨床医の安全性と信頼性を進めるための実用的な洞察を提供し、ヘルスケアにおける倫理的かつ効果的なAIの展開に貢献しています。
要約(オリジナル)
Large language models (LLMs) are increasingly utilized in healthcare applications. However, their deployment in clinical practice raises significant safety concerns, including the potential spread of harmful information. This study systematically assesses the vulnerabilities of seven LLMs to three advanced black-box jailbreaking techniques within medical contexts. To quantify the effectiveness of these techniques, we propose an automated and domain-adapted agentic evaluation pipeline. Experiment results indicate that leading commercial and open-source LLMs are highly vulnerable to medical jailbreaking attacks. To bolster model safety and reliability, we further investigate the effectiveness of Continual Fine-Tuning (CFT) in defending against medical adversarial attacks. Our findings underscore the necessity for evolving attack methods evaluation, domain-specific safety alignment, and LLM safety-utility balancing. This research offers actionable insights for advancing the safety and reliability of AI clinicians, contributing to ethical and effective AI deployment in healthcare.
arxiv情報
著者 | Hang Zhang,Qian Lou,Yanshan Wang |
発行日 | 2025-03-04 16:20:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google