AttenST: A Training-Free Attention-Driven Style Transfer Framework with Pre-Trained Diffusion Models

要約

拡散モデルはスタイル転送タスクで顕著な進歩を遂げましたが、既存の方法は通常、推論中に事前に訓練されたモデルの微調整または最適化に依存しており、コンテンツの保存とスタイル統合のバランスをとる際の高い計算コストと課題につながります。
これらの制限に対処するために、トレーニングなしの注意駆動型スタイル転送フレームワークであるAttenstを紹介します。
具体的には、コンテンツイメージのクエリを保持しながらキーと価値をスタイルイメージのものに置き換え、効果的なスタイル機能の統合を可能にすることにより、参照スタイルの自己触媒を条件付けるスタイルガイドの自己触媒メカニズムを提案します。
反転中のスタイル情報の損失を緩和するために、複数の再サンプリングステップを通じて反転精度を改善するスタイルを浸した反転戦略を導入します。
さらに、コンテンツを意識した適応インスタンスの正規化を提案します。これは、コンテンツ統計を正規化プロセスに統合して、コンテンツの劣化を軽減しながらスタイルの融合を最適化します。
さらに、コンテンツとスタイルの特徴を融合するためのデュアルフィーチャーの交差メカニズムを導入し、構造的忠実度とスタイルの表現の調和のとれた合成を確保します。
広範な実験は、Attenstが既存の方法を上回り、スタイル転送データセットで最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

While diffusion models have achieved remarkable progress in style transfer tasks, existing methods typically rely on fine-tuning or optimizing pre-trained models during inference, leading to high computational costs and challenges in balancing content preservation with style integration. To address these limitations, we introduce AttenST, a training-free attention-driven style transfer framework. Specifically, we propose a style-guided self-attention mechanism that conditions self-attention on the reference style by retaining the query of the content image while substituting its key and value with those from the style image, enabling effective style feature integration. To mitigate style information loss during inversion, we introduce a style-preserving inversion strategy that refines inversion accuracy through multiple resampling steps. Additionally, we propose a content-aware adaptive instance normalization, which integrates content statistics into the normalization process to optimize style fusion while mitigating the content degradation. Furthermore, we introduce a dual-feature cross-attention mechanism to fuse content and style features, ensuring a harmonious synthesis of structural fidelity and stylistic expression. Extensive experiments demonstrate that AttenST outperforms existing methods, achieving state-of-the-art performance in style transfer dataset.

arxiv情報

著者 Bo Huang,Wenlun Xu,Qizhuo Han,Haodong Jing,Ying Li
発行日 2025-03-10 13:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク