Slot-Guided Adaptation of Pre-trained Diffusion Models for Object-Centric Learning and Compositional Generation

要約

スロットベースのコンディショニングにアダプターを導入することにより、スロットの注意と前提条件の拡散モデルを組み合わせたオブジェクト中心の学習方法であるSlotAdaptを提示します。
私たちの方法は、テキスト中心の条件付けバイアスを避けながら、事前に拡散モデルの生成力を保持します。
また、追加のガイダンス損失をアーキテクチャに組み込み、アダプターレイヤーからの交差アテンションをスロットの注意を払って調整します。
これにより、外部監督を使用せずに入力画像内のオブジェクトとモデルのアラインメントが強化されます。
実験結果は、私たちの方法が、実際の画像を含む複数のデータセットにわたるオブジェクトの発見および画像生成タスクの最先端の手法よりも優れていることを示しています。
さらに、文献の他のスロットベースの生成方法とは対照的に、私たちの方法は、組成の生成のための複雑な現実世界の画像で非常にうまく機能することを実験を通して実証します。
プロジェクトページは、https://kaanakan.github.io/slotadapt/にあります。

要約(オリジナル)

We present SlotAdapt, an object-centric learning method that combines slot attention with pretrained diffusion models by introducing adapters for slot-based conditioning. Our method preserves the generative power of pretrained diffusion models, while avoiding their text-centric conditioning bias. We also incorporate an additional guidance loss into our architecture to align cross-attention from adapter layers with slot attention. This enhances the alignment of our model with the objects in the input image without using external supervision. Experimental results show that our method outperforms state-of-the-art techniques in object discovery and image generation tasks across multiple datasets, including those with real images. Furthermore, we demonstrate through experiments that our method performs remarkably well on complex real-world images for compositional generation, in contrast to other slot-based generative methods in the literature. The project page can be found at https://kaanakan.github.io/SlotAdapt/.

arxiv情報

著者 Adil Kaan Akan,Yucel Yemez
発行日 2025-01-28 08:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク