要約
画像(背景)にオブジェクト(前景)を埋め込む場合、通常、照明などの撮影条件の影響を考慮して、前景のオブジェクトと背景の画像の明るさや色などを調和させる画像調和処理が必要になります。
既存の画像調和手法は、視覚的に満足のいく結果を目指して継続的に努力してきましたが、依然として 2 つの主要な問題に悩まされています。
第 1 に、背景に前景オブジェクトに類似したコンテンツがない場合、画像の調和は非常に不適切な状態となり、調和の結果の信頼性が低くなります。
第二に、類似したコンテンツが利用可能な場合でも、主に画像コンテンツの理解が不十分であったり、注意が不正確であったりすることが主な原因で、調和プロセスは無関係な領域によって妨げられることがよくあります。
解決策として、我々は検索拡張画像調和 (Raiha) フレームワークを提案します。このフレームワークは、適切な参照画像を探して姿勢の悪さを軽減し、有用な情報をより効果的に活用するために注意を制限します。
具体的には、効率的な検索方法は、照明が背景と一致しながら、前景と同様のオブジェクトを含む参照画像を見つけるように設計されています。
Raiha フレームワークをトレーニングして参照情報を効果的に利用するために、既存の非参照画像調和データセットを活用してデータ拡張戦略が慎重に設計されています。
さらに、適切な注意を確実にするために、画像コンテンツの事前処理が導入されています。
提示された Raiha フレームワークを使用すると、非参照設定と検索拡張設定の両方で画像調和パフォーマンスが大幅に向上します。
ソースコードと事前トレーニングされたモデルは一般に公開されます。
要約(オリジナル)
When embedding objects (foreground) into images (background), considering the influence of photography conditions like illumination, it is usually necessary to perform image harmonization to make the foreground object coordinate with the background image in terms of brightness, color, and etc. Although existing image harmonization methods have made continuous efforts toward visually pleasing results, they are still plagued by two main issues. Firstly, the image harmonization becomes highly ill-posed when there are no contents similar to the foreground object in the background, making the harmonization results unreliable. Secondly, even when similar contents are available, the harmonization process is often interfered with by irrelevant areas, mainly attributed to an insufficient understanding of image contents and inaccurate attention. As a remedy, we present a retrieval-augmented image harmonization (Raiha) framework, which seeks proper reference images to reduce the ill-posedness and restricts the attention to better utilize the useful information. Specifically, an efficient retrieval method is designed to find reference images that contain similar objects as the foreground while the illumination is consistent with the background. For training the Raiha framework to effectively utilize the reference information, a data augmentation strategy is delicately designed by leveraging existing non-reference image harmonization datasets. Besides, the image content priors are introduced to ensure reasonable attention. With the presented Raiha framework, the image harmonization performance is greatly boosted under both non-reference and retrieval-augmented settings. The source code and pre-trained models will be publicly available.
arxiv情報
著者 | Haolin Wang,Ming Liu,Zifei Yan,Chao Zhou,Longan Xiao,Wangmeng Zuo |
発行日 | 2024-12-18 14:56:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google