要約
透かし技術は、大規模な言語モデルによって生成されたコンテンツの使用をトレースするために使用される方法です。
文レベルの透け式は、より大きな堅牢性を維持しながら、個々の文の中でセマンティックの完全性を維持するのに役立ちます。
ただし、多くの既存の文レベルの透け式手法は、適切な文の可用性を制限できる透かしを組み込むための任意のセグメンテーションまたは生成プロセスに依存しています。
この制限は、生成された応答の品質を損なうものです。
高いテキストの品質のバランスと堅牢な透かし検出の課題に対処するために、CoHemarkを提案します。これは、論理的な流encyさのために文のまとまりのある関係を悪用する高度な文レベルの透かし技術です。
Cohemarkのコア方法論には、訓練されたFuzzy C-Meansクラスタリングを介して文を選択し、特定の次の文の選択基準を適用することが含まれます。
実験的評価は、コーヘマークがテキストの品質への影響を最小限に抑えながら、強い透かしの強さを達成することを示しています。
要約(オリジナル)
Watermarking technology is a method used to trace the usage of content generated by large language models. Sentence-level watermarking aids in preserving the semantic integrity within individual sentences while maintaining greater robustness. However, many existing sentence-level watermarking techniques depend on arbitrary segmentation or generation processes to embed watermarks, which can limit the availability of appropriate sentences. This limitation, in turn, compromises the quality of the generated response. To address the challenge of balancing high text quality with robust watermark detection, we propose CoheMark, an advanced sentence-level watermarking technique that exploits the cohesive relationships between sentences for better logical fluency. The core methodology of CoheMark involves selecting sentences through trained fuzzy c-means clustering and applying specific next sentence selection criteria. Experimental evaluations demonstrate that CoheMark achieves strong watermark strength while exerting minimal impact on text quality.
arxiv情報
著者 | Junyan Zhang,Shuliang Liu,Aiwei Liu,Yubo Gao,Jungang Li,Xiaojie Gu,Xuming Hu |
発行日 | 2025-04-24 07:08:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google