Text-to-Image Alignment in Denoising-Based Models through Step Selection

要約

視覚的な生成AIモデルは、多くの場合、テキストイメージのアライメントと推論の制限に関連する課題に遭遇します。
このペーパーでは、入力セマンティクスに基づいて画像生成を最適化する重要な除去ステップで信号を選択的に強化するための新しい方法を紹介します。
私たちのアプローチは、初期段階の信号修正の欠点に対処し、後の段階で行われた調整が優れた結果をもたらすことを示しています。
私たちは、拡散モデルとフローマッチングモデルで意味的に整列した画像を生成する際の方法の有効性を検証するために広範な実験を実施し、最先端のパフォーマンスを達成します。
私たちの結果は、パフォーマンスと全体的な画像アライメントを改善するためのサンプリング段階の賢明な選択の重要性を強調しています。

要約(オリジナル)

Visual generative AI models often encounter challenges related to text-image alignment and reasoning limitations. This paper presents a novel method for selectively enhancing the signal at critical denoising steps, optimizing image generation based on input semantics. Our approach addresses the shortcomings of early-stage signal modifications, demonstrating that adjustments made at later stages yield superior results. We conduct extensive experiments to validate the effectiveness of our method in producing semantically aligned images on Diffusion and Flow Matching model, achieving state-of-the-art performance. Our results highlight the importance of a judicious choice of sampling stage to improve performance and overall image alignment.

arxiv情報

著者 Paul Grimal,Hervé Le Borgne,Olivier Ferret
発行日 2025-04-24 13:10:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク