要約
大規模言語モデル(LLM)が進化し続ける中、その学習段階とモデル配備後の両方で発生する可能性のあるセキュリティ上の脅威と脆弱性を評価することは極めて重要です。本調査では、LLMを標的とする様々な攻撃を定義・分類し、学習段階で発生するものと、既に学習済みのモデルに影響を与えるものとを区別することを目指す。これらの攻撃の徹底的な分析と、そのような脅威を軽減するために設計された防御メカニズムの探求を行う。防御は、予防に基づく防御と検出に基づく防御の2つの主要なカテゴリーに分類される。さらに、可能性のある攻撃とそれに対応する防御戦略を要約している。また、異なるセキュリティ脅威に対する既知の防御メカニズムの有効性の評価も提供する。本調査の目的は、LLMの安全性を確保するための構造化されたフレームワークを提供すると同時に、新たなセキュリティ上の課題に対する防御を改善・強化するためにさらなる研究が必要な分野を特定することである。
要約(オリジナル)
As large language models (LLMs) continue to evolve, it is critical to assess the security threats and vulnerabilities that may arise both during their training phase and after models have been deployed. This survey seeks to define and categorize the various attacks targeting LLMs, distinguishing between those that occur during the training phase and those that affect already trained models. A thorough analysis of these attacks is presented, alongside an exploration of defense mechanisms designed to mitigate such threats. Defenses are classified into two primary categories: prevention-based and detection-based defenses. Furthermore, our survey summarizes possible attacks and their corresponding defense strategies. It also provides an evaluation of the effectiveness of the known defense mechanisms for the different security threats. Our survey aims to offer a structured framework for securing LLMs, while also identifying areas that require further research to improve and strengthen defenses against emerging security challenges.
arxiv情報
| 著者 | Francisco Aguilera-Martínez,Fernando Berzal |
| 発行日 | 2025-05-02 10:35:26+00:00 |
| arxivサイト | arxiv_id(pdf) |