要約
統計的透かし技術は、逐次的にデコードされた言語モデル (LM) に対して十分に確立されています。
ただし、順序に依存しない LM のトークンは連続的に生成されないため、これらの手法を順序に依存しない LM に直接適用することはできません。
この研究では、順序に依存しない LM 用に特別に設計されたパターンベースの透かしフレームワークである Pattern-mark を紹介します。
私たちは、高周波のキー パターンを持つウォーターマーク キー シーケンスを生成するマルコフ連鎖ベースのウォーターマーク ジェネレーターを開発します。
これに対応して、検出中にキーシーケンスを回復し、高周波パターンの数に基づいて統計的テストを実行する、統計的パターンベースの検出アルゴリズムを提案します。
ProteinMPNN や CMLM などの順序に依存しない LM に対する当社の広範な評価により、Pattern-mark の検出効率、生成品質、堅牢性が強化されていることが実証され、順序に依存しない LM に対する優れた透かし技術として位置づけられています。
要約(オリジナル)
Statistical watermarking techniques are well-established for sequentially decoded language models (LMs). However, these techniques cannot be directly applied to order-agnostic LMs, as the tokens in order-agnostic LMs are not generated sequentially. In this work, we introduce Pattern-mark, a pattern-based watermarking framework specifically designed for order-agnostic LMs. We develop a Markov-chain-based watermark generator that produces watermark key sequences with high-frequency key patterns. Correspondingly, we propose a statistical pattern-based detection algorithm that recovers the key sequence during detection and conducts statistical tests based on the count of high-frequency patterns. Our extensive evaluations on order-agnostic LMs, such as ProteinMPNN and CMLM, demonstrate Pattern-mark’s enhanced detection efficiency, generation quality, and robustness, positioning it as a superior watermarking technique for order-agnostic LMs.
arxiv情報
著者 | Ruibo Chen,Yihan Wu,Yanshuo Chen,Chenxi Liu,Junfeng Guo,Heng Huang |
発行日 | 2024-10-17 17:41:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google