要約
検索拡張生成(RAG)は、ユーザー向けのNLPアプリケーションの事実上の業界標準として浮上しており、大規模な言語モデル(LLM)を再トレーニングまたは微調整せずにデータを統合する機能を提供しています。
この機能は、応答の品質と精度を向上させますが、特に機密データが統合されている場合、新しいセキュリティとプライバシーの課題も導入します。
RAGの迅速な採用により、データとサービスの保護が重要な優先事項になりました。
このペーパーでは、最初にRAGパイプラインの脆弱性をレビューし、データの前処理とデータストレージ管理からLLMSとの統合まで、攻撃面の概要を説明します。
特定されたリスクは、構造化された概要で対応する緩和とペアになります。
2番目のステップでは、このペーパーは、RAG固有のセキュリティに関する考慮事項を組み合わせたフレームワークを開発し、既存の一般的なセキュリティガイドライン、業界標準、およびベストプラクティスを組み合わせています。
提案されたフレームワークは、堅牢で準拠し、安全で、信頼できるRAGシステムの実装を導くことを目的としています。
要約(オリジナル)
Retrieval Augmented Generation (RAG) has emerged as the de facto industry standard for user-facing NLP applications, offering the ability to integrate data without re-training or fine-tuning Large Language Models (LLMs). This capability enhances the quality and accuracy of responses but also introduces novel security and privacy challenges, particularly when sensitive data is integrated. With the rapid adoption of RAG, securing data and services has become a critical priority. This paper first reviews the vulnerabilities of RAG pipelines, and outlines the attack surface from data pre-processing and data storage management to integration with LLMs. The identified risks are then paired with corresponding mitigations in a structured overview. In a second step, the paper develops a framework that combines RAG-specific security considerations, with existing general security guidelines, industry standards, and best practices. The proposed framework aims to guide the implementation of robust, compliant, secure, and trustworthy RAG systems.
arxiv情報
著者 | Lukas Ammann,Sara Ott,Christoph R. Landolt,Marco P. Lehmann |
発行日 | 2025-05-13 16:39:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google