要約
機密アプリケーションのための大規模な言語モデル(LLMS)の使用の増加は、AIに生成されたテキストの出所と説明責任を確保するための効果的な透かし技術の必要性を強調しています。
ただし、既存の透かし方のほとんどは、デコードプロセスにアクセスする必要があり、実際の設定での適用性を制限します。
例の例の1つは、アカデミックピアレビューのコンテキストでの不正なレビュアーによるLLMの使用です。会議の主催者は使用されるモデルにアクセスできませんが、AIに生成されたレビューを検出する必要があります。
このギャップに動機付けられて、コンテキスト内の透かし(ICW)を導入します。これは、迅速なエンジニアリングのみを通じて透かしを生成されたテキストに埋め込み、LLMSのコンテキスト内学習と指導の公開能力を活用します。
さまざまなレベルの粒度で4つのICW戦略を調査し、それぞれが調整された検出方法と組み合わせました。
さらに、特定のケーススタディとして間接迅速なインジェクション(IPI)設定を調べます。このケーススタディでは、アカデミック原稿などの入力ドキュメントを変更することで透かしが密かにトリガーされます。
私たちの実験は、モデルに依存しない実用的な透かしアプローチとしてのICWの実現可能性を検証します。
さらに、私たちの調査結果は、LLMがより能力が高まるにつれて、ICWがスケーラブルでアクセス可能なコンテンツの帰属に対して有望な方向を提供することを示唆しています。
要約(オリジナル)
The growing use of large language models (LLMs) for sensitive applications has highlighted the need for effective watermarking techniques to ensure the provenance and accountability of AI-generated text. However, most existing watermarking methods require access to the decoding process, limiting their applicability in real-world settings. One illustrative example is the use of LLMs by dishonest reviewers in the context of academic peer review, where conference organizers have no access to the model used but still need to detect AI-generated reviews. Motivated by this gap, we introduce In-Context Watermarking (ICW), which embeds watermarks into generated text solely through prompt engineering, leveraging LLMs’ in-context learning and instruction-following abilities. We investigate four ICW strategies at different levels of granularity, each paired with a tailored detection method. We further examine the Indirect Prompt Injection (IPI) setting as a specific case study, in which watermarking is covertly triggered by modifying input documents such as academic manuscripts. Our experiments validate the feasibility of ICW as a model-agnostic, practical watermarking approach. Moreover, our findings suggest that as LLMs become more capable, ICW offers a promising direction for scalable and accessible content attribution.
arxiv情報
著者 | Yepeng Liu,Xuandong Zhao,Christopher Kruegel,Dawn Song,Yuheng Bu |
発行日 | 2025-05-22 17:24:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google