要約
画像の合成は、遠近感、照明、影、オクルージョン、オブジェクトの相互作用など、正確かつリアルな合成を行うためにシーンに関する多くの情報を必要とする複雑なタスクです。
これまでの方法では、画像合成に主に 2D 情報が使用され、3D 空間情報の可能性は無視されていました。
この研究では、深度マップとアルファ チャネルを利用して不正確なオクルージョンを修正し、画像合成の透明効果を高める敵対的生成ネットワークである DepGAN を提案します。
私たちのネットワークの中心となるのは、Depth Aware Loss と呼ばれる新しい損失関数です。これは、異なる深度レベルでオブジェクトを合成しながら、ピクセルごとの深度の差を定量化し、オクルージョン境界を正確に描写します。
さらに、不透明度データを利用してネットワークの学習プロセスを強化し、透明および半透明のオブジェクトを含む構成を効果的に管理できるようにします。
私たちは、ベンチマーク (本物と合成の両方) データセット上で最先端の画像合成 GAN に対してモデルをテストしました。
結果は、オブジェクト配置セマンティクス、透明性、オクルージョン処理の精度の点で、DepGAN が視覚的にも定量的にも既存の方法よりも大幅に優れていることを明らかにしました。
私たちのコードは https://amrtsg.github.io/DepGAN/ で入手できます。
要約(オリジナル)
Image composition is a complex task which requires a lot of information about the scene for an accurate and realistic composition, such as perspective, lighting, shadows, occlusions, and object interactions. Previous methods have predominantly used 2D information for image composition, neglecting the potentials of 3D spatial information. In this work, we propose DepGAN, a Generative Adversarial Network that utilizes depth maps and alpha channels to rectify inaccurate occlusions and enhance transparency effects in image composition. Central to our network is a novel loss function called Depth Aware Loss which quantifies the pixel wise depth difference to accurately delineate occlusion boundaries while compositing objects at different depth levels. Furthermore, we enhance our network’s learning process by utilizing opacity data, enabling it to effectively manage compositions involving transparent and semi-transparent objects. We tested our model against state-of-the-art image composition GANs on benchmark (both real and synthetic) datasets. The results reveal that DepGAN significantly outperforms existing methods in terms of accuracy of object placement semantics, transparency and occlusion handling, both visually and quantitatively. Our code is available at https://amrtsg.github.io/DepGAN/.
arxiv情報
著者 | Amr Ghoneim,Jiju Poovvancheri,Yasushi Akiyama,Dong Chen |
発行日 | 2024-07-16 16:18:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google