SAC-GAN: Structure-Aware Image Composition

要約

我々は、画像間合成のためのエンドツーエンド学習フレームワークを導入し、物体画像から切り取られたパッチとして表される物体を、背景画像にもっともらしく合成することを目指す。我々のアプローチは、合成された画像のピクセルレベルのRGB精度よりも、意味的・構造的な一貫性に重点を置いているため、我々のネットワークの入力と出力を構造を考慮した特徴で調整し、それに応じて我々のネットワーク損失を設計する。具体的には、入力シーン画像の意味的レイアウト特徴、入力オブジェクトパッチのエッジとシルエットからエンコードされた特徴、および潜在コードを入力とし、オブジェクトパッチの平行移動と拡大縮小を定義する2次元空間アフィン変換を生成する。さらに、学習したパラメータを微分可能な空間変換器ネットワークに与え、オブジェクトパッチをターゲット画像に変換する。このとき、我々のモデルはアフィン変換識別器とレイアウト識別器を用いて敵対的に学習される。我々は、SAC-GANと名付けたこのネットワークを、様々な画像合成シナリオに対して、合成画像の品質、合成性、汎用性という観点から評価する。また,インスタンス挿入,ST-GAN,CompGAN,PlaceNetなどの最新の手法と比較し,本手法の優位性を確認する.

要約(オリジナル)

We introduce an end-to-end learning framework for image-to-image composition, aiming to plausibly compose an object represented as a cropped patch from an object image into a background scene image. As our approach emphasizes more on semantic and structural coherence of the composed images, rather than their pixel-level RGB accuracies, we tailor the input and output of our network with structure-aware features and design our network losses accordingly, with ground truth established in a self-supervised setting through the object cropping. Specifically, our network takes the semantic layout features from the input scene image, features encoded from the edges and silhouette in the input object patch, as well as a latent code as inputs, and generates a 2D spatial affine transform defining the translation and scaling of the object patch. The learned parameters are further fed into a differentiable spatial transformer network to transform the object patch into the target image, where our model is trained adversarially using an affine transform discriminator and a layout discriminator. We evaluate our network, coined SAC-GAN, for various image composition scenarios in terms of quality, composability, and generalizability of the composite images. Comparisons are made to state-of-the-art alternatives, including Instance Insertion, ST-GAN, CompGAN and PlaceNet, confirming superiority of our method.

arxiv情報

著者 Hang Zhou,Rui Ma,Ling-Xiao Zhang,Lin Gao,Ali Mahdavi-Amiri,Hao Zhang
発行日 2022-12-02 09:27:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク