要約
生成モデルの進歩により、AI が生成したテキスト、コード、画像が、多くのアプリケーションで人間が生成したコンテンツを反映することが可能になりました。
ウォーターマークは、モデルの出力に情報を埋め込んでソースを検証することを目的とした技術で、このような AI 生成コンテンツの悪用を軽減するのに役立ちます。
しかし、LLM 透かしスキームにおける一般的な設計の選択により、結果として得られるシステムが驚くほど攻撃を受けやすくなり、堅牢性、実用性、および使いやすさの根本的なトレードオフにつながることを示します。
これらのトレードオフを回避するために、私たちは一般的な透かしシステムに対する一連のシンプルかつ効果的な攻撃を厳密に研究し、実際の LLM 透かしのガイドラインと防御策を提案します。
要約(オリジナル)
Advances in generative models have made it possible for AI-generated text, code, and images to mirror human-generated content in many applications. Watermarking, a technique that aims to embed information in the output of a model to verify its source, is useful for mitigating the misuse of such AI-generated content. However, we show that common design choices in LLM watermarking schemes make the resulting systems surprisingly susceptible to attack — leading to fundamental trade-offs in robustness, utility, and usability. To navigate these trade-offs, we rigorously study a set of simple yet effective attacks on common watermarking systems, and propose guidelines and defenses for LLM watermarking in practice.
arxiv情報
著者 | Qi Pang,Shengyuan Hu,Wenting Zheng,Virginia Smith |
発行日 | 2024-11-13 15:14:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google