A Survey of Text Watermarking in the Era of Large Language Models


近年、大規模言語モデル (LLM) のテキスト生成機能が大幅に進歩し、抽象的な要約、対話の生成、データからテキストへの変換などの下流タスクで優れたパフォーマンスを示しています。
ただし、その生成能力は、フェイクニュースの急速な拡散、データセット/LLM 著作権の侵害、学術的誠実性への挑戦などのリスクももたらします。
この調査は、現在のテキスト透かし技術を包括的に要約することを目的としており、次の 3 つの主要な側面をカバーしています。(1) さまざまなテキスト透かし技術の概要と比較。
(2) テキスト透かしアルゴリズムの評価方法 (成功率、テキストの品質、堅牢性、偽造不可能性への影響を含む)。
(3) テキスト透かし技術の潜在的な応用。


In recent years, significant advancements have been made in the text generation capabilities of Large Language Models (LLMs), demonstrating exceptional performance in downstream tasks such as abstract summarization, dialogue generation, and data-to-text conversion. However, their generative abilities also pose risks such as the rapid spread of fake news, infringement of datasets/LLM copyrights, and challenges to academic integrity. Text watermarking technology emerges as a potential solution. By embedding invisible yet detectable patterns in generated texts, it helps in tracking and verifying text origins, thus preventing misuse and piracy. This survey aims to comprehensively summarize current text watermarking technologies, covering three main aspects: (1) an overview and comparison of different text watermarking techniques; (2) evaluation methods for text watermarking algorithms, including their success rate, impact on text quality, robustness, and unforgeability; (3) potential applications of text watermarking technologys. This survey aims to help researchers thoroughly understanding the text watermarking technologies, thereby fostering further development.


著者 Aiwei Liu,Leyi Pan,Yijian Lu,Jingjing Li,Xuming Hu,Lijie Wen,Irwin King,Philip S. Yu
発行日 2023-12-13 06:11:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク