Painterly Image Harmonization using Diffusion Model

要約

絵画的画像調和は、絵画に写真オブジェクトを挿入し、芸術的に首尾一貫した合成画像を得ることを目的としている。このタスクのための従来の手法は、主に推論最適化や生成的敵対ネットワークに依存しているが、非常に時間がかかるか、前景オブジェクト(例えば、テクスチャやコンテンツの詳細)の微細な制御に苦労している。これらの問題に対処するため、我々は、軽量な適応エンコーダとデュアルエンコーダフュージョン(DEF)モジュールを含む、新しいペインタリーハーモナイゼーション安定拡散モデル(Painterly Harmonization stable Diffusion:PHDiffusion)を提案する。具体的には、適応エンコーダとDEFモジュールは、まずそれぞれのエンコーダ内で前景特徴を定型化する。次に、両エンコーダの前景特徴量を組み合わせて、調和処理を行う。学習中、拡散モデルにおけるノイズ損失の他に、コンテンツ損失と2つのスタイル損失(AdaINスタイル損失と対照的スタイル損失)を採用し、スタイル移行とコンテンツ保存の間のトレードオフのバランスをとることを目指す。関連分野の最先端モデルと比較して、我々のPHDiffusionは、前景をより十分にスタイル化し、同時に、より微細なコンテンツを保持することができる。我々のコードとモデルは、https://github.com/bcmi/PHDiffusion-Painterly-Image-Harmonization。

要約(オリジナル)

Painterly image harmonization aims to insert photographic objects into paintings and obtain artistically coherent composite images. Previous methods for this task mainly rely on inference optimization or generative adversarial network, but they are either very time-consuming or struggling at fine control of the foreground objects (e.g., texture and content details). To address these issues, we propose a novel Painterly Harmonization stable Diffusion model (PHDiffusion), which includes a lightweight adaptive encoder and a Dual Encoder Fusion (DEF) module. Specifically, the adaptive encoder and the DEF module first stylize foreground features within each encoder. Then, the stylized foreground features from both encoders are combined to guide the harmonization process. During training, besides the noise loss in diffusion model, we additionally employ content loss and two style losses, i.e., AdaIN style loss and contrastive style loss, aiming to balance the trade-off between style migration and content preservation. Compared with the state-of-the-art models from related fields, our PHDiffusion can stylize the foreground more sufficiently and simultaneously retain finer content. Our code and model are available at https://github.com/bcmi/PHDiffusion-Painterly-Image-Harmonization.

arxiv情報

著者 Lingxiao Lu,Jiangtong Li,Junyan Cao,Li Niu,Liqing Zhang
発行日 2023-08-04 09:51:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク