Semantica: An Adaptable Image-Conditioned Diffusion Model

要約

私たちは、微調整を行わずに画像生成モデルをさまざまなデータセットに適応させるタスクを調査します。
この目的を達成するために、条件付け画像のセマンティクスに基づいて画像を生成できる画像条件付き拡散モデルである Semantica を紹介します。
Semantica は Web スケールの画像ペアのみでトレーニングされます。つまり、Web ページからランダムな画像を条件付き入力として受け取り、同じ Web ページから別のランダムな画像をモデル化します。
私たちの実験では、事前トレーニング済み画像エンコーダーの表現力と、高品質の画像生成を実現するためのセマンティックベースのデータ フィルタリングの必要性が強調されています。
トレーニングが完了すると、データセットの画像を入力として使用するだけで、データセットから新しい画像を適応的に生成できます。
私たちは、ImageNet、LSUN Churches、LSUN Bedroom、SUN397 上の Semantica の転送特性を研究しています。

要約(オリジナル)

We investigate the task of adapting image generative models to different datasets without finetuneing. To this end, we introduce Semantica, an image-conditioned diffusion model capable of generating images based on the semantics of a conditioning image. Semantica is trained exclusively on web-scale image pairs, that is it receives a random image from a webpage as conditional input and models another random image from the same webpage. Our experiments highlight the expressivity of pretrained image encoders and necessity of semantic-based data filtering in achieving high-quality image generation. Once trained, it can adaptively generate new images from a dataset by simply using images from that dataset as input. We study the transfer properties of Semantica on ImageNet, LSUN Churches, LSUN Bedroom and SUN397.

arxiv情報

著者 Manoj Kumar,Neil Houlsby,Emiel Hoogeboom
発行日 2024-05-23 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク