要約
大規模言語モデルの顕著な生成性能により倫理的・法的な懸念が生じたため、透かしを埋め込むことで機械生成テキストを検出するアプローチが開発されている。しかし、コード生成タスクにおいては、エントロピーが低いというタスクの性質上、既存の手法が適切に機能しないことが判明した。我々は、ロジット修正電子透かし法を拡張し、エントロピー閾値による選択的電子透かし(SWEET)を提案する。これは、電子透かしを生成・検出する際に低エントロピーセグメントを除去することにより、検出能力を向上させ、コード品質の劣化を緩和する。我々の実験によれば、SWEETは機械生成コードテキストの検出において、ポストホック検出法を含む全てのベースラインを凌駕しながら、コード品質の保持を大幅に改善する。我々のコードはhttps://github.com/hongcheki/sweet-watermark。
要約(オリジナル)
Since the remarkable generation performance of large language models raised ethical and legal concerns, approaches to detect machine-generated text by embedding watermarks are being developed. However, we discover that the existing works fail to function appropriately in code generation tasks due to the task’s nature of having low entropy. Extending a logit-modifying watermark method, we propose Selective WatErmarking via Entropy Thresholding (SWEET), which enhances detection ability and mitigates code quality degeneration by removing low-entropy segments at generating and detecting watermarks. Our experiments show that SWEET significantly improves code quality preservation while outperforming all baselines, including post-hoc detection methods, in detecting machine-generated code text. Our code is available in https://github.com/hongcheki/sweet-watermark.
arxiv情報
| 著者 | Taehyun Lee,Seokhee Hong,Jaewoo Ahn,Ilgee Hong,Hwaran Lee,Sangdoo Yun,Jamin Shin,Gunhee Kim | 
| 発行日 | 2024-07-03 15:09:52+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
