A Watermark for Order-Agnostic Language Models


統計的透かし技術は、逐次的にデコードされた言語モデル (LM) に対して十分に確立されています。
ただし、順序に依存しない LM のトークンは連続的に生成されないため、これらの手法を順序に依存しない LM に直接適用することはできません。
この研究では、順序に依存しない LM 用に特別に設計されたパターンベースの透かしフレームワークである Pattern-mark を紹介します。
私たちは、高周波のキー パターンを持つウォーターマーク キー シーケンスを生成するマルコフ連鎖ベースのウォーターマーク ジェネレーターを開発します。
ProteinMPNN や CMLM などの順序に依存しない LM に対する当社の広範な評価により、Pattern-mark の検出効率、生成品質、堅牢性が強化されていることが実証され、順序に依存しない LM に対する優れた透かし技術として位置づけられています。


Statistical watermarking techniques are well-established for sequentially decoded language models (LMs). However, these techniques cannot be directly applied to order-agnostic LMs, as the tokens in order-agnostic LMs are not generated sequentially. In this work, we introduce Pattern-mark, a pattern-based watermarking framework specifically designed for order-agnostic LMs. We develop a Markov-chain-based watermark generator that produces watermark key sequences with high-frequency key patterns. Correspondingly, we propose a statistical pattern-based detection algorithm that recovers the key sequence during detection and conducts statistical tests based on the count of high-frequency patterns. Our extensive evaluations on order-agnostic LMs, such as ProteinMPNN and CMLM, demonstrate Pattern-mark’s enhanced detection efficiency, generation quality, and robustness, positioning it as a superior watermarking technique for order-agnostic LMs.


著者 Ruibo Chen,Yihan Wu,Yanshuo Chen,Chenxi Liu,Junfeng Guo,Heng Huang
発行日 2024-10-17 17:41:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク