要約
Imagenや安定した拡散モデルなどの最先端のテキストからイメージからイメージからイメージまでの生成モデルは、人間のテキストプロンプトに導かれた高解像度を備えた高品質で機能が豊富な画像を合成することにおいて顕著な進歩を遂げています。
画像コンテンツの特定の特性\ emph {emg。}、非常に具体的なオブジェクトエンティティまたはスタイルは、テキストで正確に説明するのが非常に困難であるため、いくつかの例ベースの画像生成アプローチが提案されています。
いくつかの入力参照の顕著な特徴を吸収します。
成功が認められているにもかかわらず、これらの方法は、特に1つのリファレンスのみを与えられた1ショットシナリオ(\ empond {nems})で、多様で質の高い画像生成を維持しながら、参照例の特性を正確にキャプチャすることに苦労しています。
この問題に取り組むために、シンプルでありながら効果的なフレームワーク、すなわちDreamartistを提案します。これは、事前に訓練された拡散モデルに新しいポジティブネガティブな迅速な調整学習戦略を採用し、正確なもの間のトレードオフをうまく処理することが示されています。
1つの参照例のみで画像生成の制御性と忠実度。
具体的には、提案されたフレームワークには、正と負の埋め込みまたはアダプターの両方が組み込まれ、共同で最適化されます。
正の部分は、参照画像の顕著な特性を積極的にキャプチャして、多様化された世代を駆動し、負の部分は正の部分から不十分さを癒します。
広範な実験を実施し、画像の類似性(忠実度)と多様性、生成制御性、スタイルクローニングから提案された方法を評価しました。
そして、私たちのDreamartistは、既存の方法よりも優れた世代のパフォーマンスを達成しました。
また、コンセプト構成や迅速なガイド付き画像編集など、拡張タスクに関する追加の評価は、より多くのアプリケーションに対するその有効性を示しています。
要約(オリジナル)
State-of-the-arts text-to-image generation models such as Imagen and Stable Diffusion Model have succeed remarkable progresses in synthesizing high-quality, feature-rich images with high resolution guided by human text prompts. Since certain characteristics of image content \emph{e.g.}, very specific object entities or styles, are very hard to be accurately described by text, some example-based image generation approaches have been proposed, \emph{i.e.} generating new concepts based on absorbing the salient features of a few input references. Despite of acknowledged successes, these methods have struggled on accurately capturing the reference examples’ characteristics while keeping diverse and high-quality image generation, particularly in the one-shot scenario (\emph{i.e.} given only one reference). To tackle this problem, we propose a simple yet effective framework, namely DreamArtist, which adopts a novel positive-negative prompt-tuning learning strategy on the pre-trained diffusion model, and it has shown to well handle the trade-off between the accurate controllability and fidelity of image generation with only one reference example. Specifically, our proposed framework incorporates both positive and negative embeddings or adapters and optimizes them in a joint manner. The positive part aggressively captures the salient characteristics of the reference image to drive diversified generation and the negative part rectifies inadequacies from the positive part. We have conducted extensive experiments and evaluated the proposed method from image similarity (fidelity) and diversity, generation controllability, and style cloning. And our DreamArtist has achieved a superior generation performance over existing methods. Besides, our additional evaluation on extended tasks, including concept compositions and prompt-guided image editing, demonstrates its effectiveness for more applications.
arxiv情報
著者 | Ziyi Dong,Pengxu Wei,Liang Lin |
発行日 | 2025-01-30 15:13:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google