要約
大規模言語モデル LLM の出現は、人工知能における画期的な出来事であり、機械が人間の言語を理解して生成する方法を変えます。
ただし、LLM は悪意のあるプロンプト インジェクション攻撃に対して脆弱です。この攻撃では、細工された入力によってモデルの動作が意図しない方法で操作され、システムの整合性が損なわれ、誤った結果が引き起こされます。
従来の検出方法は静的なルールベースのアプローチに依存しており、異常なトークン シーケンスやエイリアスの置換などの高度な脅威に対しては失敗することが多く、適応性が制限され、偽陽性と偽陰性の発生率が高くなります。この論文では、迅速な検出を実現するための新しい NLP ベースのアプローチを提案します。
注入検出、多層入力スクリーニングプロセスによる精度と最適化を強調します。
このフレームワークでは、プロンプトは、ターゲット モデルに到達する前に、ルールベース、ML 分類子、およびコンパニオン LLM の 3 つの異なるレイヤーを通じてフィルター処理され、悪意のある相互作用のリスクが最小限に抑えられます。テストでは、ML 分類子が個々のレイヤーの中で最高の精度を達成することが示されていますが、
多層フレームワークにより、偽陰性が減少し、全体的な検出精度が向上します。
これにより誤検知が増加しますが、本物の挿入されたプロンプトを見落とすリスクが最小限に抑えられるため、セキュリティが優先されます。この多層検出アプローチは LLM の脆弱性を浮き彫りにし、将来の研究のための包括的なフレームワークを提供し、人間と AI システム間の安全な対話を促進します。
要約(オリジナル)
The advent of Large Language Models LLMs marks a milestone in Artificial Intelligence, altering how machines comprehend and generate human language. However, LLMs are vulnerable to malicious prompt injection attacks, where crafted inputs manipulate the models behavior in unintended ways, compromising system integrity and causing incorrect outcomes. Conventional detection methods rely on static, rule-based approaches, which often fail against sophisticated threats like abnormal token sequences and alias substitutions, leading to limited adaptability and higher rates of false positives and false negatives.This paper proposes a novel NLP based approach for prompt injection detection, emphasizing accuracy and optimization through a layered input screening process. In this framework, prompts are filtered through three distinct layers rule-based, ML classifier, and companion LLM before reaching the target model, thereby minimizing the risk of malicious interaction.Tests show the ML classifier achieves the highest accuracy among individual layers, yet the multi-layer framework enhances overall detection accuracy by reducing false negatives. Although this increases false positives, it minimizes the risk of overlooking genuine injected prompts, thus prioritizing security.This multi-layered detection approach highlights LLM vulnerabilities and provides a comprehensive framework for future research, promoting secure interactions between humans and AI systems.
arxiv情報
著者 | Sahasra Kokkula,Somanathan R,Nandavardhan R,Aashishkumar,G Divya |
発行日 | 2024-10-28 15:47:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google