SCAM! Transferring humans between images with Semantic Cross Attention Modulation

要約

最近の研究の大部分は、意味論的に調整された画像生成を対象としています。
そのような方法のほとんどは、ポーズ転送というより狭いタスクに焦点を当てており、ポーズだけでなく外観や背景も転送するという、より困難な主題転送のタスクを無視しています。
この作品では、SCAM (Semantic Cross Attention Modulation) を導入します。これは、画像の各セマンティック領域 (前景と背景を含む) に豊富で多様な情報をエンコードするシステムであり、細部に重点を置いた正確な生成を実現します。
これは、セマンティック領域ごとに複数の潜在ベクトルを抽出する Semantic Attention Transformer Encoder と、セマンティック相互注意変調を使用してこれらの複数の潜在ベクトルを活用する対応するジェネレーターによって可能になります。
被験者の転送はテスト時に実行されますが、再構成セットアップのみを使用してトレーニングされます。
私たちの分析は、私たちの提案したアーキテクチャが、各セマンティック領域での外観の多様性のエンコードに成功していることを示しています。
iDesigner および CelebAMask-HD データセットに関する広範な実験では、SCAM が SEAN および SPADE よりも優れていることが示されています。
さらに、それは主題の転送に関する新しい最先端技術を設定します。

要約(オリジナル)

A large body of recent work targets semantically conditioned image generation. Most such methods focus on the narrower task of pose transfer and ignore the more challenging task of subject transfer that consists in not only transferring the pose but also the appearance and background. In this work, we introduce SCAM (Semantic Cross Attention Modulation), a system that encodes rich and diverse information in each semantic region of the image (including foreground and background), thus achieving precise generation with emphasis on fine details. This is enabled by the Semantic Attention Transformer Encoder that extracts multiple latent vectors for each semantic region, and the corresponding generator that exploits these multiple latents by using semantic cross attention modulation. It is trained only using a reconstruction setup, while subject transfer is performed at test time. Our analysis shows that our proposed architecture is successful at encoding the diversity of appearance in each semantic region. Extensive experiments on the iDesigner and CelebAMask-HD datasets show that SCAM outperforms SEAN and SPADE; moreover, it sets the new state of the art on subject transfer.

arxiv情報

著者 Nicolas Dufour,David Picard,Vicky Kalogeiton
発行日 2022-10-10 17:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク