Efficiently Identifying Watermarked Segments in Mixed-Source Texts

要約

大規模な言語モデル(LLM)のテキスト透かしは、合成テキストを検出するためにますます使用され、偽のニュースや学問的不正などの誤用ケースを緩和します。
既存の透かし検出手法は、主にドキュメント全体を透かし型に分類するかどうかに分類することに焦点を当てていますが、多くの場合、より長い混合ソース文書内で個々の透かしセグメントを識別する一般的なシナリオを無視します。
盗作検出システムからインスピレーションを得て、部分的な透かし検出のための2つの新しい方法を提案します。
まず、長いテキストに透かしセグメントがあるかどうかを判断することを目的としたジオメトリカバー検出フレームワークを開発します。
第二に、テキスト内の透かしセグメントの正確な場所を特定するために、適応的なオンライン学習アルゴリズムを紹介します。
3つの人気のある透かし技術(KGWウォーターマーク、Unigram-Watermark、およびGumbel-Watermark)で評価されたこのアプローチは、高精度で、ベースライン方法を大幅に上回ることができます。
さらに、私たちのフレームワークは、他の透かし技術に適応でき、正確な透かし検出のための新しい洞察を提供します。
私たちのコードは、https://github.com/xuandongzhao/llm-watermark-locationで公開されています

要約(オリジナル)

Text watermarks in large language models (LLMs) are increasingly used to detect synthetic text, mitigating misuse cases like fake news and academic dishonesty. While existing watermarking detection techniques primarily focus on classifying entire documents as watermarked or not, they often neglect the common scenario of identifying individual watermark segments within longer, mixed-source documents. Drawing inspiration from plagiarism detection systems, we propose two novel methods for partial watermark detection. First, we develop a geometry cover detection framework aimed at determining whether there is a watermark segment in long text. Second, we introduce an adaptive online learning algorithm to pinpoint the precise location of watermark segments within the text. Evaluated on three popular watermarking techniques (KGW-Watermark, Unigram-Watermark, and Gumbel-Watermark), our approach achieves high accuracy, significantly outperforming baseline methods. Moreover, our framework is adaptable to other watermarking techniques, offering new insights for precise watermark detection. Our code is publicly available at https://github.com/XuandongZhao/llm-watermark-location

arxiv情報

著者 Xuandong Zhao,Chenwen Liao,Yu-Xiang Wang,Lei Li
発行日 2025-06-12 17:25:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク