IP-Composer: Semantic Composition of Visual Concepts

要約

コンテンツクリエーターは、多くの場合、複数の視覚ソースからインスピレーションを引き出し、異なる要素を組み合わせて新しい構成を作成します。
現在、現代の計算アプローチは、この基本的な創造プロセスをエミュレートすることを目指しています。
最近の拡散モデルはテキスト誘導組成合成に優れていますが、媒体としてのテキストには、視覚的な詳細に対する正確な制御がしばしば欠けています。
画像ベースの構成アプローチは、より微妙な機能をキャプチャできますが、既存の方法は通常、キャプチャできる概念の範囲が制限されており、高価なトレーニング手順または専門データが必要です。
私たちは、各画像から抽出される概念を記述するために自然言語を使用しながら、複数の画像参照を同時に活用する構成画像生成のための新しいトレーニングフリーのアプローチであるIP-Composerを提示します。
私たちの方法は、入力画像のクリップ埋め込みに条件付けられた新しい画像を合成するIPアダプターに基づいています。
このアプローチは、複数の入力画像の投影からテキストを介して識別されたコンセプト固有のクリップサブスペースに縫われた複合埋め込みを作成することにより、複数の視覚入力に拡張します。
包括的な評価を通じて、私たちのアプローチにより、より広い範囲の視覚的概念構成をより正確に制御できることが示されます。

要約(オリジナル)

Content creators often draw inspiration from multiple visual sources, combining distinct elements to craft new compositions. Modern computational approaches now aim to emulate this fundamental creative process. Although recent diffusion models excel at text-guided compositional synthesis, text as a medium often lacks precise control over visual details. Image-based composition approaches can capture more nuanced features, but existing methods are typically limited in the range of concepts they can capture, and require expensive training procedures or specialized data. We present IP-Composer, a novel training-free approach for compositional image generation that leverages multiple image references simultaneously, while using natural language to describe the concept to be extracted from each image. Our method builds on IP-Adapter, which synthesizes novel images conditioned on an input image’s CLIP embedding. We extend this approach to multiple visual inputs by crafting composite embeddings, stitched from the projections of multiple input images onto concept-specific CLIP-subspaces identified through text. Through comprehensive evaluation, we show that our approach enables more precise control over a larger range of visual concept compositions.

arxiv情報

著者 Sara Dorfman,Dana Cohen-Bar,Rinon Gal,Daniel Cohen-Or
発行日 2025-02-19 18:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク