Robust Multi-bit Natural Language Watermarking through Invariant Features

要約

近年、購読ベースのメディア、Web 小説プラットフォーム、大規模な言語モデルの出力などで、貴重なオリジナルの自然言語コンテンツが急増しています。
ただし、これらのコンテンツは、適切なセキュリティ対策がなければ、違法な著作権侵害や悪用の可能性があります。
これには、漏洩追跡や所有権の特定を通じて著作権保護を保証する安全な透かしシステムが必要です。
著作権侵害と効果的に闘い、著作権を保護するには、マルチビット透かしフレームワークが適切なビットの情報を埋め込み、破損の可能性があるにもかかわらず堅牢な方法で透かしを抽出できる必要があります。
この研究では、画像透かしのよく知られた命題に従ってペイロードと堅牢性の両方を向上させる方法を模索し、軽微な破損に対して不変である自然言語の特徴を特定します。
考えられるエラーの原因を系統的に分析することで、破損に強い充填モデルをさらに提案します。
私たちの完全な手法は、4 つのデータセット、3 つの破損タイプ、および 2 つの破損率で、堅牢性に関する以前の研究を平均して +16.8% ポイント改善しました。
コードは https://github.com/bangawayoo/nlp-watermarking で入手できます。

要約(オリジナル)

Recent years have witnessed a proliferation of valuable original natural language contents found in subscription-based media outlets, web novel platforms, and outputs of large language models. However, these contents are susceptible to illegal piracy and potential misuse without proper security measures. This calls for a secure watermarking system to guarantee copyright protection through leakage tracing or ownership identification. To effectively combat piracy and protect copyrights, a multi-bit watermarking framework should be able to embed adequate bits of information and extract the watermarks in a robust manner despite possible corruption. In this work, we explore ways to advance both payload and robustness by following a well-known proposition from image watermarking and identify features in natural language that are invariant to minor corruption. Through a systematic analysis of the possible sources of errors, we further propose a corruption-resistant infill model. Our full method improves upon the previous work on robustness by +16.8% point on average on four datasets, three corruption types, and two corruption ratios. Code available at https://github.com/bangawayoo/nlp-watermarking.

arxiv情報

著者 KiYoon Yoo,Wonhyuk Ahn,Jiho Jang,Nojun Kwak
発行日 2023-06-09 07:17:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク