TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification

要約

大規模言語モデル (LLM) のサービスとモデルには、多くの場合、誰がそれらを使用できるか、またどのように使用しなければならないかについての法的規則が付属しています。
これらのルールは LLM 貢献者の利益を保護し、悪用を防ぐため、リリースされた LLM のコンプライアンスを評価することは非常に重要です。
これに関連して、Black-box Identity Verification (BBIV) の新しいフィンガープリンティングの問題について説明します。
目的は、サードパーティ アプリケーションがチャット機能を通じて特定の LLM を使用しているかどうかを判断することです。
私たちは、使用中の特定の LLM を識別する Targeted Random Adversarial Prompt (TRAP) と呼ばれる方法を提案します。
他のモデルはランダムな応答を返す一方で、ターゲット LLM から事前定義された応答を取得するために、もともと脱獄のために提案された敵対的なサフィックスを再利用します。
TRAP は、1 回のインタラクションの後でも、95% 以上の真陽性率、0.2% 未満の偽陽性率でターゲット LLM を検出します。
LLM に元の機能を大きく変えない小さな変更が加えられた場合でも、TRAP は引き続き有効です。

要約(オリジナル)

Large Language Model (LLM) services and models often come with legal rules on who can use them and how they must use them. Assessing the compliance of the released LLMs is crucial, as these rules protect the interests of the LLM contributor and prevent misuse. In this context, we describe the novel fingerprinting problem of Black-box Identity Verification (BBIV). The goal is to determine whether a third-party application uses a certain LLM through its chat function. We propose a method called Targeted Random Adversarial Prompt (TRAP) that identifies the specific LLM in use. We repurpose adversarial suffixes, originally proposed for jailbreaking, to get a pre-defined answer from the target LLM, while other models give random answers. TRAP detects the target LLMs with over 95% true positive rate at under 0.2% false positive rate even after a single interaction. TRAP remains effective even if the LLM has minor changes that do not significantly alter the original function.

arxiv情報

著者 Martin Gubri,Dennis Ulmer,Hwaran Lee,Sangdoo Yun,Seong Joon Oh
発行日 2024-06-06 17:46:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク