Multi-Designated Detector Watermarking for Language Models

要約

この論文では、大規模言語モデル (LLM) に対する \emph{複数指定検出器透かし (MDDW)} の研究を開始します。
この技術により、モデルプロバイダーは 2 つの重要な特性を持つ LLM からウォーターマーク付き出力を生成できます。(i) 特定の、場合によっては複数の指定された検出器のみがウォーターマークを識別できます。(ii) 一般ユーザーにとって出力品質の劣化は認識できません。
私たちは、MDDW のセキュリティ定義を形式化し、複数指定検証者署名 (MDVS) を使用して LLM の MDDW を構築するためのフレームワークを提示します。
LLM 出力の重要な経済的価値を認識し、MDDW のオプションのセキュリティ機能としてクレーム可能性を導入し、モデルプロバイダーが指定された検出器設定内で LLM 出力の所有権を主張できるようにします。
要求可能な MDDW をサポートするために、任意の MDVS を要求可能な MDVS に変換する汎用変換を提案します。
MDDW スキームの実装は、満足のいくパフォーマンス指標を備えた、既存の方法に比べて高度な機能と柔軟性を強調しています。

要約(オリジナル)

In this paper, we initiate the study of \emph{multi-designated detector watermarking (MDDW)} for large language models (LLMs). This technique allows model providers to generate watermarked outputs from LLMs with two key properties: (i) only specific, possibly multiple, designated detectors can identify the watermarks, and (ii) there is no perceptible degradation in the output quality for ordinary users. We formalize the security definitions for MDDW and present a framework for constructing MDDW for any LLM using multi-designated verifier signatures (MDVS). Recognizing the significant economic value of LLM outputs, we introduce claimability as an optional security feature for MDDW, enabling model providers to assert ownership of LLM outputs within designated-detector settings. To support claimable MDDW, we propose a generic transformation converting any MDVS to a claimable MDVS. Our implementation of the MDDW scheme highlights its advanced functionalities and flexibility over existing methods, with satisfactory performance metrics.

arxiv情報

著者 Zhengan Huang,Gongxian Zeng,Xin Mu,Yu Wang,Yue Yu
発行日 2024-10-01 08:08:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク