Training-and-prompt-free General Painterly Harmonization Using Image-wise Attention Sharing

要約

絵画的なイメージの調和は、単一の一貫したイメージ内で異種の視覚要素をシームレスにブレンドすることを目的としています。
ただし、以前のアプローチでは、トレーニング データの制約、時間のかかる微調整の必要性、追加のプロンプトへの依存などにより、重大な制限に遭遇することがよくあります。
これらのハードルを克服するために、我々は、新しい「注意の共有モジュール」を統合するイメージワイズ注意共有(TF-GPH)を使用した、トレーニングと即時不要の一般的な絵画的調和方法を設計します。
このモジュールは、包括的な画像ごとの注意を可能にすることで従来の自己注意メカニズムを再定義し、一般的なトレーニング データの制限なしで最先端の事前トレーニング済み潜在拡散モデルの使用を容易にします。
さらに、「類似性再重み付け」メカニズムをさらに導入し、画像間の情報を効果的に利用することでパフォーマンスを向上させ、微調整やプロンプトベースのアプローチの機能を上回ります。
最後に、私たちは既存のベンチマークの欠陥を認識し、現実世界のアプリケーションをより正確に反映するために範囲ベースの評価指標を採用する「一般絵画調和ベンチマーク」を提案します。
広範な実験により、さまざまなベンチマークにわたって当社の手法の優れた有効性が実証されています。
コードと Web デモは https://github.com/BlueDyee/TF-GPH で入手できます。

要約(オリジナル)

Painterly Image Harmonization aims at seamlessly blending disparate visual elements within a single coherent image. However, previous approaches often encounter significant limitations due to training data constraints, the need for time-consuming fine-tuning, or reliance on additional prompts. To surmount these hurdles, we design a Training-and-prompt-Free General Painterly Harmonization method using image-wise attention sharing (TF-GPH), which integrates a novel ‘share-attention module’. This module redefines the traditional self-attention mechanism by allowing for comprehensive image-wise attention, facilitating the use of a state-of-the-art pretrained latent diffusion model without the typical training data limitations. Additionally, we further introduce ‘similarity reweighting’ mechanism enhances performance by effectively harnessing cross-image information, surpassing the capabilities of fine-tuning or prompt-based approaches. At last, we recognize the deficiencies in existing benchmarks and propose the ‘General Painterly Harmonization Benchmark’, which employs range-based evaluation metrics to more accurately reflect real-world application. Extensive experiments demonstrate the superior efficacy of our method across various benchmarks. The code and web demo are available at https://github.com/BlueDyee/TF-GPH.

arxiv情報

著者 Teng-Fang Hsiao,Bo-Kai Ruan,Hong-Han Shuai
発行日 2024-04-19 14:13:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク