要約
視覚的なシーンを理解することは、人間の知性の基本です。
識別モデルにはコンピュータービジョンが大幅に進歩していますが、しばしば構成の理解に苦労しています。
対照的に、最近の生成テキストから画像間拡散モデルは、複雑なシーンの合成に優れており、固有の構成能力を示唆しています。
これに基づいて、ゼロショット拡散分類器が識別タスクの拡散モデルを再利用するために提案されています。
以前の研究は、識別的な組成シナリオで有望な結果を提供しましたが、これらの結果は、少数のベンチマークと、モデルが成功する条件の比較的浅い分析により、予備的なままです。
これに対処するために、幅広い組成タスクで拡散分類器の識別能力の包括的な研究を提示します。
具体的には、私たちの研究では、10のデータセットと30を超えるタスクにまたがる3つの拡散モデル(SD 1.5、2.0、および初めて3-m)をカバーしています。
さらに、ターゲットデータセットドメインがそれぞれのパフォーマンスで果たす役割に光を当てました。
ドメイン効果を分離するために、拡散モデル自体によって作成された画像で構成される新しい診断ベンチマークセルフベンチを紹介します。
最後に、タイムステップの重み付けの重要性を調査し、特にSD3-Mのドメインギャップとタイムステップ感度の関係を明らかにします。
要約すると、拡散分類器は構成性を理解しますが、条件が適用されます!
コードとデータセットは、https://github.com/eugene6923/diffusion-classifiers-compositionalityで入手できます。
要約(オリジナル)
Understanding visual scenes is fundamental to human intelligence. While discriminative models have significantly advanced computer vision, they often struggle with compositional understanding. In contrast, recent generative text-to-image diffusion models excel at synthesizing complex scenes, suggesting inherent compositional capabilities. Building on this, zero-shot diffusion classifiers have been proposed to repurpose diffusion models for discriminative tasks. While prior work offered promising results in discriminative compositional scenarios, these results remain preliminary due to a small number of benchmarks and a relatively shallow analysis of conditions under which the models succeed. To address this, we present a comprehensive study of the discriminative capabilities of diffusion classifiers on a wide range of compositional tasks. Specifically, our study covers three diffusion models (SD 1.5, 2.0, and, for the first time, 3-m) spanning 10 datasets and over 30 tasks. Further, we shed light on the role that target dataset domains play in respective performance; to isolate the domain effects, we introduce a new diagnostic benchmark Self-Bench comprised of images created by diffusion models themselves. Finally, we explore the importance of timestep weighting and uncover a relationship between domain gap and timestep sensitivity, particularly for SD3-m. To sum up, diffusion classifiers understand compositionality, but conditions apply! Code and dataset are available at https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
arxiv情報
著者 | Yujin Jeong,Arnas Uselis,Seong Joon Oh,Anna Rohrbach |
発行日 | 2025-05-29 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google