Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning

要約

大規模な言語モデル(LLMS)は、ドメイン固有の知識で応答を補うために、検索された高級生成(RAG)メカニズムを通じて、実際のパーソナライズされたアプリケーションにますます統合されています。
しかし、RAGで使用される知識ベースの貴重でしばしば独自の性質は、敵による不正使用のリスクをもたらします。
これらの知識ベースを保護するための透かしのテクニックとして一般化できる既存の方法は、通常、中毒またはバックドア攻撃を伴います。
ただし、これらの方法では、LLMの検証サンプルの結果を変更し、必然的にこれらの透かしを異常検出の影響を受けやすく、新しいセキュリティリスクを導入する必要があります。
これらの課題に対処するために、知識ベースの「無害な」著作権保護について\ name {}を提案します。
LLMの最終出力を操作する代わりに、\ name {}インプラントは、最終回答の正しさを維持し、考え方(COT)の推論の空間で明確でありながら良性検証行動をインプラントします。
私たちの方法には3つの主要な段階があります。(1)COTの生成:検証の質問ごとに、透かし行動を構築するためのターゲットベースを含む2つの「無実の」COTを生成します。
(2)透かしフレーズとターゲットベースのコットの最適化:理論分析に触発されて、\ emphed {black-box}および\ emph {text-only}設定の下での検索エラーを最小限に抑えるように最適化し、透かし式検証クエリのみが知識ベースに触れられているCOTを取得できるようにします。
(3)所有権の検証:ペアワイズWilcoxonテストを利用して、疑わしいLLMが、その応答を透かし型および良性検証クエリに比較することにより、保護された知識ベースで増強されているかどうかを検証します。
多様なベンチマークでの実験は、\ name {}が知識ベースと適応攻撃に対する抵抗を効果的に保護することを示しています。

要約(オリジナル)

Large language models (LLMs) are increasingly integrated into real-world personalized applications through retrieval-augmented generation (RAG) mechanisms to supplement their responses with domain-specific knowledge. However, the valuable and often proprietary nature of the knowledge bases used in RAG introduces the risk of unauthorized usage by adversaries. Existing methods that can be generalized as watermarking techniques to protect these knowledge bases typically involve poisoning or backdoor attacks. However, these methods require altering the LLM’s results of verification samples, inevitably making these watermarks susceptible to anomaly detection and even introducing new security risks. To address these challenges, we propose \name{} for `harmless’ copyright protection of knowledge bases. Instead of manipulating LLM’s final output, \name{} implants distinct yet benign verification behaviors in the space of chain-of-thought (CoT) reasoning, maintaining the correctness of the final answer. Our method has three main stages: (1) Generating CoTs: For each verification question, we generate two `innocent’ CoTs, including a target CoT for building watermark behaviors; (2) Optimizing Watermark Phrases and Target CoTs: Inspired by our theoretical analysis, we optimize them to minimize retrieval errors under the \emph{black-box} and \emph{text-only} setting of suspicious LLM, ensuring that only watermarked verification queries can retrieve their correspondingly target CoTs contained in the knowledge base; (3) Ownership Verification: We exploit a pairwise Wilcoxon test to verify whether a suspicious LLM is augmented with the protected knowledge base by comparing its responses to watermarked and benign verification queries. Our experiments on diverse benchmarks demonstrate that \name{} effectively protects knowledge bases and its resistance to adaptive attacks.

arxiv情報

著者 Junfeng Guo,Yiming Li,Ruibo Chen,Yihan Wu,Chenxi Liu,Yanshuo Chen,Heng Huang
発行日 2025-05-23 15:35:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.IR, cs.LG パーマリンク