FreeBlend: Advancing Concept Blending with Staged Feedback-Driven Interpolation Diffusion

要約

コンセプトブレンディングは、生成モデルでは有望でありながら未使用の領域です。
構造スケッチに基づいた混合や潜在的な変更などの最近のアプローチが提案されていますが、それらはしばしば互換性のない意味情報と形状と外観の矛盾に苦しんでいます。
この作業では、これらの課題に対処するために設計された効果的でトレーニングなしのフレームワークであるFreeBlendを紹介します。
クロスモーダル損失を緩和し、特徴の詳細を強化するために、転送された画像埋め込みを条件付き入力として活用します。
このフレームワークは、潜在性の間の段階的な補間戦略を採用し、補助機能をシームレスに統合するためにブレンド比を徐々に調整します。
さらに、補助潜伏物を逆順序で更新するフィードバック駆動型メカニズムを導入し、グローバルな混合を促進し、剛性または不自然な出力を防止します。
広範な実験は、この方法が混合画像のセマンティックコヒーレンスと視覚的品質の両方を大幅に改善し、説得力のあるコヒーレントな結果をもたらすことを示しています。

要約(オリジナル)

Concept blending is a promising yet underexplored area in generative models. While recent approaches, such as embedding mixing and latent modification based on structural sketches, have been proposed, they often suffer from incompatible semantic information and discrepancies in shape and appearance. In this work, we introduce FreeBlend, an effective, training-free framework designed to address these challenges. To mitigate cross-modal loss and enhance feature detail, we leverage transferred image embeddings as conditional inputs. The framework employs a stepwise increasing interpolation strategy between latents, progressively adjusting the blending ratio to seamlessly integrate auxiliary features. Additionally, we introduce a feedback-driven mechanism that updates the auxiliary latents in reverse order, facilitating global blending and preventing rigid or unnatural outputs. Extensive experiments demonstrate that our method significantly improves both the semantic coherence and visual quality of blended images, yielding compelling and coherent results.

arxiv情報

著者 Yufan Zhou,Haoyu Shen,Huan Wang
発行日 2025-02-14 14:17:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク