DiPmark: A Stealthy, Efficient and Resilient Watermark for Large Language Models

要約

透かし技術は、データに秘密情報を埋め込むことでデータを保護する有望な方法を提供します。
このドメインにおける最大の課題は、透かしを挿入する際に元のデータの分散を維持することにあります。
私たちの研究では、分布保存 (DiP) ウォーターマークの重要性に重点を置き、既存のウォーターマーク フレームワークを拡張および改良しています。
現在の戦略とは対照的に、私たちが提案する DiPmark は、透かし入れ中に元のトークン分布を保存し (ステルス性)、言語モデル API や重みにアクセスせずに検出可能 (効率的)、トークンの適度な変更に対して堅牢です (復元力があります)。
これは、コンテキストに基づいて一意の \textit{i.i.d.} 暗号を割り当てるハッシュ関数と組み合わせた、新しい再重み付け戦略を組み込むことで実現されます。
私たちのアプローチの経験的ベンチマークは、そのステルス性、効率性、回復力を強調しており、完璧な品質保持が求められる透かし入れタスクにとって堅牢なソリューションとなっています。

要約(オリジナル)

Watermarking techniques offer a promising way to secure data via embedding covert information into the data. A paramount challenge in the domain lies in preserving the distribution of original data during watermarking. Our research extends and refines existing watermarking framework, placing emphasis on the importance of a distribution-preserving (DiP) watermark. Contrary to the current strategies, our proposed DiPmark preserves the original token distribution during watermarking (stealthy), is detectable without access to the language model API or weights (efficient), and is robust to moderate changes of tokens (resilient). This is achieved by incorporating a novel reweight strategy, combined with a hash function that assigns unique \textit{i.i.d.} ciphers based on the context. The empirical benchmarks of our approach underscore its stealthiness, efficiency, and resilience, making it a robust solution for watermarking tasks that demand impeccable quality preservation.

arxiv情報

著者 Yihan Wu,Zhengmian Hu,Hongyang Zhang,Heng Huang
発行日 2023-10-11 17:57:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク