要約
近年、検索拡張生成 (RAG) で多大な成功が見られています。RAG は、ドメイン固有の知識集約的でプライバシーに配慮したタスクにおいて大規模言語モデル (LLM) を強化するために広く使用されています。
ただし、攻撃者がこれらの貴重な RAG を盗んで展開または商品化する可能性があるため、知的財産 (IP) 侵害を検出することが不可欠になります。
ウォーターマークなどの既存の所有権保護ソリューションのほとんどは、リレーショナル データベースとテキスト用に設計されています。
リレーショナル データベースのウォーターマークは IP 侵害を検出するためにホワイトボックス アクセスを必要とするため、これらを RAG に直接適用することはできませんが、RAG のナレッジ ベースには非現実的です。
一方、攻撃者が展開した LLM による後処理により、通常、テキストの透かし情報が破壊されます。
これらの問題に対処するために、RAG の IP 侵害を検出するための、RAG-WM と呼ばれる新しいブラックボックス「知識透かし」アプローチを提案します。
RAG-WM は、ウォーターマーク ジェネレーター、シャドウ LLM と RAG、およびウォーターマーク ディスクリミネーターで構成されるマルチ LLM インタラクション フレームワークを使用して、ウォーターマーク エンティティ関係タプルに基づいてウォーターマーク テキストを作成し、それらをターゲット RAG に挿入します。
私たちは、4 つのベンチマーク LLM 上の 3 つのドメイン固有のタスクと 2 つのプライバシーに配慮したタスクにわたって RAG-WM を評価しました。
実験結果は、RAG-WM が、導入されたさまざまな LLM で盗まれた RAG を効果的に検出することを示しています。
さらに、RAG-WM は、言い換え、無関係なコンテンツの削除、知識の挿入、および知識の拡張攻撃に対して堅牢です。
最後に、RAG-WM は透かし検出アプローチを回避することもでき、RAG システムの IP 侵害の検出におけるその有望な用途を強調しています。
要約(オリジナル)
In recent years, tremendous success has been witnessed in Retrieval-Augmented Generation (RAG), widely used to enhance Large Language Models (LLMs) in domain-specific, knowledge-intensive, and privacy-sensitive tasks. However, attackers may steal those valuable RAGs and deploy or commercialize them, making it essential to detect Intellectual Property (IP) infringement. Most existing ownership protection solutions, such as watermarks, are designed for relational databases and texts. They cannot be directly applied to RAGs because relational database watermarks require white-box access to detect IP infringement, which is unrealistic for the knowledge base in RAGs. Meanwhile, post-processing by the adversary’s deployed LLMs typically destructs text watermark information. To address those problems, we propose a novel black-box ‘knowledge watermark’ approach, named RAG-WM, to detect IP infringement of RAGs. RAG-WM uses a multi-LLM interaction framework, comprising a Watermark Generator, Shadow LLM & RAG, and Watermark Discriminator, to create watermark texts based on watermark entity-relationship tuples and inject them into the target RAG. We evaluate RAG-WM across three domain-specific and two privacy-sensitive tasks on four benchmark LLMs. Experimental results show that RAG-WM effectively detects the stolen RAGs in various deployed LLMs. Furthermore, RAG-WM is robust against paraphrasing, unrelated content removal, knowledge insertion, and knowledge expansion attacks. Lastly, RAG-WM can also evade watermark detection approaches, highlighting its promising application in detecting IP infringement of RAG systems.
arxiv情報
著者 | Peizhuo Lv,Mengjie Sun,Hao Wang,Xiaofeng Wang,Shengzhi Zhang,Yuxuan Chen,Kai Chen,Limin Sun |
発行日 | 2025-01-09 14:01:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google