IP-Prompter: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting

要約

私たちが成長するにつれて私たちを魅了する物語とキャラクターは、ユニークなファンタジーの世界を形作り、これらの領域を視覚的に体験するための主要な媒体として機能します。
テーマ固有のデータを使用して微調整を通じて生成モデルをパーソナライズすることは、テキストから画像の生成において一般的なアプローチになりました。
ただし、特定のオブジェクトの学習に焦点を当てたオブジェクトのカスタマイズとは異なり、テーマ固有の生成には、文字、シーン、オブジェクトなどの多様な要素が含まれます。
このような多様性は、マルチキャラクター、マルチコンセプト、および連続テーマ固有の画像(TSI)を適応的に生成する方法という重要な課題も紹介します。
さらに、微調整されたアプローチには、多くの場合、大幅な計算オーバーヘッド、時間コスト、過剰適合のリスクが伴います。
このペーパーでは、基本的な質問について説明します。画像生成モデルは、文脈モデルがテキストとしてテキストを使用する方法と同様に、画像生成モデルをコンテキスト入力として直接活用できますか?
これに対処するために、新しいトレーニングなしのTSI生成方法であるIPプロンプターを提示します。
IPプロンプターは、参照画像を生成モデルに統合し、追加のトレーニングを必要とせずにターゲットテーマをシームレスに指定できるようにする視覚的なプロンプトを導入します。
このプロセスをさらに強化するために、動的な視覚プロンプト(DVP)メカニズムを提案します。これにより、視覚的なプロンプトを最適化して生成された画像の精度と品質を向上させます。
私たちのアプローチにより、一貫したストーリー生成、キャラクターデザイン、現実的なキャラクター生成、スタイルガイド付きの画像生成など、多様なアプリケーションが可能になります。
最先端のパーソナライズ方法との比較評価は、IPプロンプターが大幅に優れた結果を達成し、キャラクターのアイデンティティの保存、スタイルの一貫性、テキストの調整を維持し、テーマ固有の画像生成に堅牢で柔軟なソリューションを提供することを示しています。

要約(オリジナル)

The stories and characters that captivate us as we grow up shape unique fantasy worlds, with images serving as the primary medium for visually experiencing these realms. Personalizing generative models through fine-tuning with theme-specific data has become a prevalent approach in text-to-image generation. However, unlike object customization, which focuses on learning specific objects, theme-specific generation encompasses diverse elements such as characters, scenes, and objects. Such diversity also introduces a key challenge: how to adaptively generate multi-character, multi-concept, and continuous theme-specific images (TSI). Moreover, fine-tuning approaches often come with significant computational overhead, time costs, and risks of overfitting. This paper explores a fundamental question: Can image generation models directly leverage images as contextual input, similarly to how large language models use text as context? To address this, we present IP-Prompter, a novel training-free TSI generation method. IP-Prompter introduces visual prompting, a mechanism that integrates reference images into generative models, allowing users to seamlessly specify the target theme without requiring additional training. To further enhance this process, we propose a Dynamic Visual Prompting (DVP) mechanism, which iteratively optimizes visual prompts to improve the accuracy and quality of generated images. Our approach enables diverse applications, including consistent story generation, character design, realistic character generation, and style-guided image generation. Comparative evaluations against state-of-the-art personalization methods demonstrate that IP-Prompter achieves significantly better results and excels in maintaining character identity preserving, style consistency and text alignment, offering a robust and flexible solution for theme-specific image generation.

arxiv情報

著者 Yuxin Zhang,Minyan Luo,Weiming Dong,Xiao Yang,Haibin Huang,Chongyang Ma,Oliver Deussen,Tong-Yee Lee,Changsheng Xu
発行日 2025-05-20 14:39:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク