Learning Global-aware Kernel for Image Harmonization

要約

画像調和は、背景を基準として前景ピクセルを適応的に調整することにより、合成画像における視覚的な不一致の問題を解決することを目的としています。
既存の方法は、前景と背景の間の局所的な色変換または領域マッチングを使用します。これは、事前の強力な近接性を無視し、調和のために前景/背景を全体の部分として独立して区別します。
その結果、さまざまな前景オブジェクトやシーンにわたって依然として限られたパフォーマンスしか示されません。
この問題に対処するために、我々は、長距離のバックグラウンド参照を包括的に考慮してローカル領域を調和させる、新しい Global-aware Kernel Network (GKNet) を提案します。
具体的には、GKNet には、ハーモニー カーネル予測ブランチとハーモニー カーネル変調ブランチの 2 つの部分が含まれています。
前者には、長距離コンテキストを取得する長距離参照抽出器 (LRE) と、グローバル情報とローカル特徴を融合することによってマルチレベル ハーモニー カーネルを予測するカーネル予測ブロック (KPB) が含まれます。
この目標を達成するために、局所的な調和のために関連する長距離背景基準をより適切に選択するための新しい選択相関融合 (SCF) モジュールが提案されています。
後者は、予測されたカーネルを使用して、前景領域をローカルとグローバルの両方の認識と調和させます。
豊富な実験により、画像調和に関して当社の手法が最先端の手法よりも優れていることが実証されています。たとえば、最良の手法を +0.78dB $\uparrow$ 上回る 39.53dB PSNR を達成しています。
SoTA 手法と比較して fMSE/MSE が 11.5\%$\downarrow$/6.7\%$\downarrow$ 減少します。
コードは \href{https://github.com/XintianShen/GKNet}{こちら} で入手できます。

要約(オリジナル)

Image harmonization aims to solve the visual inconsistency problem in composited images by adaptively adjusting the foreground pixels with the background as references. Existing methods employ local color transformation or region matching between foreground and background, which neglects powerful proximity prior and independently distinguishes fore-/back-ground as a whole part for harmonization. As a result, they still show a limited performance across varied foreground objects and scenes. To address this issue, we propose a novel Global-aware Kernel Network (GKNet) to harmonize local regions with comprehensive consideration of long-distance background references. Specifically, GKNet includes two parts, \ie, harmony kernel prediction and harmony kernel modulation branches. The former includes a Long-distance Reference Extractor (LRE) to obtain long-distance context and Kernel Prediction Blocks (KPB) to predict multi-level harmony kernels by fusing global information with local features. To achieve this goal, a novel Selective Correlation Fusion (SCF) module is proposed to better select relevant long-distance background references for local harmonization. The latter employs the predicted kernels to harmonize foreground regions with both local and global awareness. Abundant experiments demonstrate the superiority of our method for image harmonization over state-of-the-art methods, \eg, achieving 39.53dB PSNR that surpasses the best counterpart by +0.78dB $\uparrow$; decreasing fMSE/MSE by 11.5\%$\downarrow$/6.7\%$\downarrow$ compared with the SoTA method. Code will be available at \href{https://github.com/XintianShen/GKNet}{here}.

arxiv情報

著者 Xintian Shen,Jiangning Zhang,Jun Chen,Shipeng Bai,Yue Han,Yabiao Wang,Chengjie Wang,Yong Liu
発行日 2023-05-19 13:49:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク