Adversarial Attacks on Large Language Models in Medicine

要約

大規模言語モデル (LLM) をヘルスケア アプリケーションに統合すると、医療診断、治療の推奨、患者ケアに将来有望な進歩がもたらされます。
しかし、LLM は敵対的攻撃に対して脆弱であるため、重大な脅威が生じ、デリケートな医療現場では有害な結果を招く可能性があります。
この研究では、3 つの医療業務における 2 種類の敵対的攻撃に対する LLM の脆弱性を調査しています。
実際の患者データを利用して、オープンソース LLM と独自の LLM の両方が複数のタスクにわたる操作の影響を受けやすいことを実証します。
この調査では、ドメイン固有のタスクは、効果的な攻撃を実行するために、特により機能的なモデルの場合、一般的なドメイン タスクよりもモデルの微調整においてより多くの敵対的データを必要とすることがさらに明らかになりました。
私たちは、敵対的データを統合しても、医療ベンチマークにおけるモデル全体のパフォーマンスを著しく低下させない一方で、微調整されたモデルの重みに顕著な変化をもたらし、モデル攻撃を検出して対抗するための潜在的な経路を示唆していることを発見しました。
この調査は、医療現場での LLM の安全かつ効果的な展開を確保するために、医療アプリケーションで LLM を保護するための堅牢なセキュリティ対策と防御メカニズムの開発が緊急に必要であることを浮き彫りにしています。

要約(オリジナル)

The integration of Large Language Models (LLMs) into healthcare applications offers promising advancements in medical diagnostics, treatment recommendations, and patient care. However, the susceptibility of LLMs to adversarial attacks poses a significant threat, potentially leading to harmful outcomes in delicate medical contexts. This study investigates the vulnerability of LLMs to two types of adversarial attacks in three medical tasks. Utilizing real-world patient data, we demonstrate that both open-source and proprietary LLMs are susceptible to manipulation across multiple tasks. This research further reveals that domain-specific tasks demand more adversarial data in model fine-tuning than general domain tasks for effective attack execution, especially for more capable models. We discover that while integrating adversarial data does not markedly degrade overall model performance on medical benchmarks, it does lead to noticeable shifts in fine-tuned model weights, suggesting a potential pathway for detecting and countering model attacks. This research highlights the urgent need for robust security measures and the development of defensive mechanisms to safeguard LLMs in medical applications, to ensure their safe and effective deployment in healthcare settings.

arxiv情報

著者 Yifan Yang,Qiao Jin,Furong Huang,Zhiyong Lu
発行日 2024-12-05 17:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク