Watermarking Needs Input Repetition Masking

要約

大規模な言語モデル(LLMS)の最近の進歩は、誤った情報を広めるなど、潜在的な誤用に対する懸念を引き起こしました。
それに応じて、2つのカウンター測定が登場しました。テキストが合成であるかどうかを予測する機械学習ベースの検出器と、識別と属性のためにテキストを微妙にマークしたLLM透かしを使用します。
一方、人間は会話パートナーに言語を調整することが知られています。
含意により、人間または非顕著なLLMがLLM生成されたテキストの意図せずに特性を模倣し、カウンターメジャーを信頼できない可能性があります。
この作業では、そのような会話の適応が起こる程度を調査します。
コンセプト$ \ textIT {mimicry} $を呼び出し、人間とLLMの両方が、一見存在しない設定であっても透かしの​​信号を含め、最終的に模倣することを示しています。
これは現在の学術的仮定に挑戦し、長期的な透かしが信頼できるためには、誤った陽性の可能性が大幅に低くなる必要がありますが、透かし式メカニズムのシードには長い単語シーケンスを使用する必要があることを示唆しています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) raised concerns over potential misuse, such as for spreading misinformation. In response two counter measures emerged: machine learning-based detectors that predict if text is synthetic, and LLM watermarking, which subtly marks generated text for identification and attribution. Meanwhile, humans are known to adjust language to their conversational partners both syntactically and lexically. By implication, it is possible that humans or unwatermarked LLMs could unintentionally mimic properties of LLM generated text, making counter measures unreliable. In this work we investigate the extent to which such conversational adaptation happens. We call the concept $\textit{mimicry}$ and demonstrate that both humans and LLMs end up mimicking, including the watermarking signal even in seemingly improbable settings. This challenges current academic assumptions and suggests that for long-term watermarking to be reliable, the likelihood of false positives needs to be significantly lower, while longer word sequences should be used for seeding watermarking mechanisms.

arxiv情報

著者 David Khachaturov,Robert Mullins,Ilia Shumailov,Sumanth Dathathri
発行日 2025-04-16 16:25:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク