要約
最近、テキストから画像への (T2I) 合成は、特にラージ言語モデル (LLM) の出現とラージ ビジョン モデル (LVM) の機能強化によって大幅に進歩し、従来の T2I モデルの命令追従機能が大幅に強化されました。
それにもかかわらず、以前の方法は生成品質の向上に重点を置いていますが、プロンプトに危険な要素が導入されています。
私たちは、特定のカメラの説明をプロンプトに追加することで安全性能を向上できることを検討しています。
そこで、我々は、最適なカメラ記述を提供することで画像生成品質を向上させる、簡単で安全なプロンプトエンジニアリング手法(SSP)を提案します。
具体的には、元のプロンプトとして複数のデータセットからデータセットを作成します。
最適なカメラを選択するために、最適なカメラ マッチング アプローチを設計し、自動的にマッチングできる独自のプロンプトの分類器を実装します。
カメラの説明を元のプロンプトに追加すると、LVM イメージをさらに生成するために最適化されたプロンプトが生成されます。
実験では、SSP が他のものと比較して意味の一貫性を平均 16%、安全性の指標を 48.9% 改善することが実証されています。
要約(オリジナル)
Recently, text-to-image (T2I) synthesis has undergone significant advancements, particularly with the emergence of Large Language Models (LLM) and their enhancement in Large Vision Models (LVM), greatly enhancing the instruction-following capabilities of traditional T2I models. Nevertheless, previous methods focus on improving generation quality but introduce unsafe factors into prompts. We explore that appending specific camera descriptions to prompts can enhance safety performance. Consequently, we propose a simple and safe prompt engineering method (SSP) to improve image generation quality by providing optimal camera descriptions. Specifically, we create a dataset from multi-datasets as original prompts. To select the optimal camera, we design an optimal camera matching approach and implement a classifier for original prompts capable of automatically matching. Appending camera descriptions to original prompts generates optimized prompts for further LVM image generation. Experiments demonstrate that SSP improves semantic consistency by an average of 16% compared to others and safety metrics by 48.9%.
arxiv情報
著者 | Weijin Cheng,Jianzhi Liu,Jiawen Deng,Fuji Ren |
発行日 | 2024-01-02 09:51:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google