Black Box Adversarial Prompting for Foundation Models

要約

プロンプトインターフェイスにより、ユーザーは視覚と言語の両方で生成モデルの出力を迅速に調整できます。
ただし、プロンプトの小さな変更やデザインの選択によって、出力に大きな違いが生じる可能性があります。
この研究では、非構造化画像とテキスト生成のための敵対的なプロンプトを生成するためのブラックボックス フレームワークを開発します。
これらのプロンプトは、スタンドアロンにすることも、無害なプロンプトの前に追加することもでき、特定のオブジェクトの画像の生成や複雑性の高いテキストの生成など、生成プロセスに特定の動作を誘発します。

要約(オリジナル)

Prompting interfaces allow users to quickly adjust the output of generative models in both vision and language. However, small changes and design choices in the prompt can lead to significant differences in the output. In this work, we develop a black-box framework for generating adversarial prompts for unstructured image and text generation. These prompts, which can be standalone or prepended to benign prompts, induce specific behaviors into the generative process, such as generating images of a particular object or generating high perplexity text.

arxiv情報

著者 Natalie Maus,Patrick Chao,Eric Wong,Jacob Gardner
発行日 2023-05-29 17:06:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク