Context Diffusion: In-Context Aware Image Generation

要約

私たちは、画像生成モデルがコンテキスト内で提示された視覚的な例から学習できるようにする拡散ベースのフレームワークである Context Diffusion を提案します。
最近の研究では、クエリ画像がコンテキストの例やテキスト プロンプトとともに提供される、画像生成のためのコンテキスト内学習に取り組んでいます。
ただし、プロンプトが存在しない場合、生成された画像の品質と忠実度は低下します。これは、これらのモデルが視覚的なコンテキストから真に学習できないことを示しています。
これに対処するために、ビジュアルコンテキストのエンコーディングとクエリ画像の構造の保存を分離する新しいフレームワークを提案します。
これにより、視覚的なコンテキストとテキスト プロンプトだけでなく、それらのいずれかから学習できるようになります。
さらに、モデルが少数ショット設定を処理できるようにして、コンテキスト内の多様な学習シナリオに効果的に対処します。
私たちの実験とユーザー調査では、Context Diffusion がドメイン内タスクとドメイン外タスクの両方で優れており、その結果、対応するモデルと比較して画質と忠実度が全体的に向上していることが実証されました。

要約(オリジナル)

We propose Context Diffusion, a diffusion-based framework that enables image generation models to learn from visual examples presented in context. Recent work tackles such in-context learning for image generation, where a query image is provided alongside context examples and text prompts. However, the quality and fidelity of the generated images deteriorate when the prompt is not present, demonstrating that these models are unable to truly learn from the visual context. To address this, we propose a novel framework that separates the encoding of the visual context and preserving the structure of the query images. This results in the ability to learn from the visual context and text prompts, but also from either one of them. Furthermore, we enable our model to handle few-shot settings, to effectively address diverse in-context learning scenarios. Our experiments and user study demonstrate that Context Diffusion excels in both in-domain and out-of-domain tasks, resulting in an overall enhancement in image quality and fidelity compared to counterpart models.

arxiv情報

著者 Ivona Najdenkoska,Animesh Sinha,Abhimanyu Dubey,Dhruv Mahajan,Vignesh Ramanathan,Filip Radenovic
発行日 2023-12-06 16:19:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク